JP2021177598A

JP2021177598A - 音声処理システム、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2021177598A
Application number: JP2020082358A
Authority: JP
Inventors: 典子畑; Noriko Hata; 文亮杉森; Fumiaki Sugimori; 達也西尾; Tatsuya Nishio
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-11
Also published as: US11651779B2; US20210350812A1

Abstract

【課題】音声トラブルを検出するとともに、当該音声トラブルの対処法を提示することが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。【解決手段】音声処理システムは、ユーザが発話した音声を受信する音声受信部と、前記音声受信部より受信される前記音声を認識する音声認識部と、第１拠点から受信する第１音声の認識結果と、第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定部と、前記音声判定部により前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示部と、を備える。【選択図】図６

Description

本発明は、音声処理システム、音声処理方法、及び音声処理プログラムに関する。

従来、互いに離れた場所においてネットワークを介して音声、映像、ファイルなどを送受信して行う会議システムが提案されている。例えば特許文献１には、会議システムにおいて、話者の音声を認識したテキストと、当該話者の映像とを表示部に表示させる技術が開示されている。

特許第６４６３８２５号公報

しかし、従来の会議システムでは、ネットワークの帯域不足、遅延、マイク及びスピーカの不具合などが生じた場合に、音声通話が途切れるといった音声トラブルが生じることがある。また、前記音声トラブルが生じた場合に、当該音声トラブルの原因を特定することが困難であるため、当該音声トラブルに対する対応が遅れてしまう問題もある。

本発明の目的は、音声トラブルを検出するとともに、当該音声トラブルの対処法を提示することが可能な音声処理システム、会議システム、音声処理方法、及び音声処理プログラムを提供することにある。

本発明の一の態様に係る音声処理システムは、ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理システムであって、前記音声を受信する音声受信部と、前記音声受信部より受信される前記音声を認識する音声認識部と、前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定部と、前記音声判定部により前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示部と、を備える。

本発明の他の態様に係る音声処理方法は、ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理方法であって、前記音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声を認識する音声認識ステップと、前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定ステップと、前記音声判定ステップにより前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示ステップと、を一又は複数のプロセッサにより実行する。

本発明の他の態様に係る音声処理プログラムは、ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理プログラムであって、前記音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声を認識する音声認識ステップと、前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定ステップと、前記音声判定ステップにより前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示ステップと、を一又は複数のプロセッサにより実行させるための音声処理プログラムである。

本発明によれば、音声トラブルを検出するとともに、当該音声トラブルの対処法を提示することが可能な音声処理システム、音声処理方法、及び音声処理プログラムが提供される。

図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。図２は、本発明の実施形態に係る会議システムの構成を示す機能ブロック図である。図３は、本発明の実施形態に係る会議システムで利用されるキーワード情報の一例を示す図である。図４は、本発明の実施形態に係る会議システムで利用される判定情報の一例を示す図である。図５は、本発明の実施形態に係る会議システムで利用される対処情報の一例を示す図である。図６は、本発明の実施形態に係る会議システムにおいて表示装置に表示される表示画面の一例を示す図である。図７は、本発明の実施形態に係る会議システムにおいて表示装置に表示される表示画面の一例を示す図である。図８は、本発明の実施形態に係る会議システムにおいて表示装置に表示される表示画面の一例を示す図である。図９は、本発明の実施形態に係る会議システムにおける情報提示処理の手順の一例を説明するためのフローチャートである。図１０は、本発明の実施形態に係る会議システムにおける情報提示処理の手順の一例を説明するためのフローチャートである。図１１は、本発明の他の実施形態に係る会議システムの概略構成を示す図である。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る音声処理システムは、複数の拠点（エリア）をネットワーク接続して複数のユーザが参加するリモート会議などに適用することができる。例えば、前記音声処理システムは、ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する。また、本発明に係る音声処理システムは、音声コマンドを実行する機能と、ネットワークを介してユーザ間で通話可能な通話機能（電話機能、テレビ電話機能など）とを備えたものであってもよい。また本発明に係る音声処理システムは、会議参加者の音声を送受信する１又は複数の音声処理装置を備える。

以下の実施形態では、音声処理システムがリモート会議（会議システム）に適用される場合を例に挙げて説明する。すなわち、本実施形態に係る会議システムは、本発明に係る音声処理システムの一例である。例えば本実施形態に係る会議システムでは、それぞれの拠点（会議室）に音声処理装置が配置され、一方の会議室の音声処理装置がユーザの発話した音声を受信して、他方の会議室の音声処理装置に送信することにより、各会議室のユーザ同士の会話を可能にする。また前記会議システムは、前記会話の内容（テキスト情報）、会議の資料などを表示する表示装置を備える。また前記会議システムは、音声処理装置から受信するユーザの音声を解析してコマンドを特定するクラウドサーバを備えてもよい。

［会議システム１００］
図１は、本発明の実施形態に係る会議システムの概略構成を示す図である。会議システム１００は、各拠点（会議室）に音声処理装置１と表示装置２とを備えている。音声処理装置１Ａ，１Ｂのそれぞれは、マイク及びスピーカを備えたマイクスピーカ装置であり、例えばＡＩスピーカ、スマートスピーカなどである。ここでは、会議室Ａに設置された音声処理装置１Ａと、会議室Ｂに設置された音声処理装置１Ｂとを示している。表示装置２Ａ，２Ｂは各種情報を表示する表示部を備える。ここでは、会議室Ａに設置された表示装置２Ａと、会議室Ｂに設置された表示装置２Ｂとを示している。音声処理装置１Ａ及び表示装置２Ａと、音声処理装置１Ｂ及び表示装置２Ｂとは、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。音声処理装置１Ａ，１Ｂのそれぞれは、本発明の音声処理装置の一例である。表示装置２Ａ，２Ｂのそれぞれは、本発明の表示装置の一例である。また、表示装置２Ｂは本発明の第１表示パネルの一例であり、表示装置２Ａは本発明の第２表示パネルの一例である。

会議システム１００では、例えば会議室Ａのユーザが発話した音声が音声処理装置１Ａにより受信され、音声処理装置１Ａは受信した音声をネットワークＮ１を介して会議室Ｂの音声処理装置１Ｂに送信する。音声処理装置１Ｂは、音声処理装置１Ａから受信した音声をスピーカから出力するとともに、当該音声の内容（テキスト情報）を表示装置２Ｂに表示させる。同様に、例えば会議室Ｂのユーザが発話した音声が音声処理装置１Ｂにより受信され、音声処理装置１Ｂは受信した音声をネットワークＮ１を介して会議室Ａの音声処理装置１Ａに送信する。音声処理装置１Ａは、音声処理装置１Ｂから受信した音声をスピーカから出力するとともに、当該音声の内容（テキスト情報）を表示装置２Ａに表示させる。このようにして、会議室Ａ，Ｂのそれぞれのユーザは会話を行うことが可能となる。

ここで、会議システム１００では、ネットワークの帯域不足、遅延、マイク及びスピーカの不具合などが生じた場合に、音声通話が途切れるといった音声トラブルが生じることがある。会議システム１００は、前記音声トラブルが生じた場合に、前記音声トラブルを検出するとともに、当該音声トラブルの対処法を提示することが可能である。以下、会議システム１００の具体的な構成について説明する。尚、以下の説明では、音声処理装置１Ａ，１Ｂを区別しない場合は「音声処理装置１」と称す。

［音声処理装置１］
各拠点（ここでは会議室Ａ，Ｂ）に配置される音声処理装置１は同一の構成を備える。図２に示すように、音声処理装置１は、制御部１１、記憶部１２、スピーカ１３、マイク１４、及び通信インターフェース１５などを備える。音声処理装置１は、例えばＡＩスピーカ、スマートスピーカなどの機器であってもよい。音声処理装置１は、例えば会議室の机上に配置され、会議に参加するユーザの音声をマイク１４を介して取得したり、当該ユーザに対してスピーカ１３から音声を出力（報知）したりする。

通信インターフェース１５は、音声処理装置１を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば、他の音声処理装置１、表示装置２、クラウドサーバなど）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部１２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部１２には、制御部１１に後述の情報提示処理（図９参照）を実行させるための情報提示処理プログラムなどの制御プログラムが記憶されている。例えば、前記情報提示処理プログラムは、外部サーバから配信されて記憶される。また前記情報提示処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

また記憶部１２には、キーワード情報Ｄ１、判定情報Ｄ２、対処情報Ｄ３などのデータが記憶される。図３は、キーワード情報Ｄ１の一例を示す図である。図４は、判定情報Ｄ２の一例を示す図である。図５は、対処情報Ｄ３の一例を示す図である。

キーワード情報Ｄ１には、予め設定された特定のキーワード（本発明の特定ワードに相当）が登録される。具体的には、前記キーワードは、遠隔地で発話された音声を聞き取ることが困難であることを意味する用語である。例えば、前記キーワードには、「聞こえない」、「途切れる」、「もしもし」などの用語が含まれる。なお、前記キーワードには、前記用語の同義語、類義語なども登録されてもよい。例えば、前記キーワードには、「聞こえない」に対応する「聞こえにくい」、「聞き取れない」などの用語も登録されてもよい。キーワード情報Ｄ１には、前記キーワードが予め登録される。

判定情報Ｄ２には、前記音声トラブルが生じた場合に当該音声トラブルの対処法を特定するための情報が登録される。具体的には、判定情報Ｄ２には、他拠点から受信する音声の認識結果（「正常」又は「異常」）、自拠点において前記キーワードを検知したか否か（検知有無）の情報、自拠点のスピーカ音量（「大（設定値が音量最大値の５０％以上）」又は「小（設定値が音量最大値の５０％未満）」）、自拠点及び他拠点間のネットワーク帯域の状況（「十分（１．５Ｍｂｐｓ以上）」又は「逼迫（１．５Ｍｂｐｓ未満）」）、ノイズの大きさ（「大（ＳＮ比が０ｄｂ未満）」又は「小（ＳＮ比が０ｄｂ以上）」）、聞こえ具合（「途切れ途切れ」又は「全く聞こえない」）、対処法に関する対処情報の識別情報（対処情報１〜８）などが互いに関連付けられて登録される。

対処情報Ｄ３には、判定情報Ｄ２に登録される対処情報１〜８の具体的な内容が登録される。各対処情報には、少なくとも他拠点に提示（通知）する対処メッセージが含まれる。前記対処メッセージは、前記音声トラブルを解消するための対処法（解決策）に関する内容である。このように、記憶部１２には、判定情報Ｄ２に含まれる各項目に関する状況に応じた対処メッセージ（本発明の特定情報の一例）が予め記憶される。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

具体的に、制御部１１は、音声受信部１１１、音声送信部１１２、音声認識部１１３、音声判定部１１４、情報提示部１１５などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記情報提示処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部１１１は、音声処理装置１を利用するユーザが発話した音声（音声データ）を受信する。音声受信部１１１は、本発明の音声受信部の一例である。例えば、音声処理装置１Ａの音声受信部１１１は、会議室Ａのユーザが発話した音声を受信し、音声処理装置１Ｂの音声受信部１１１は、会議室Ｂのユーザが発話した音声を受信する。

音声送信部１１２は、音声受信部１１１より受信された前記音声（音声データ）を遠隔地（他拠点）に送信する。例えば、音声処理装置１Ａの音声送信部１１２は、会議室Ａのユーザが発話した音声を会議室Ｂの音声処理装置１Ｂに送信し、音声処理装置１Ｂの音声送信部１１２は、会議室Ｂのユーザが発話した音声を会議室Ａの音声処理装置１Ａに送信する。

音声認識部１１３は、音声受信部１１１より受信された前記音声を認識する。音声認識部１１３は、本発明の音声認識部の一例である。例えば、音声処理装置１Ａの音声認識部１１３は、音声処理装置１Ａの音声受信部１１１により受信された、会議室Ｂのユーザが発話した前記音声を認識してテキストデータに変換する。また例えば、音声処理装置１Ｂの音声認識部１１３は、音声処理装置１Ｂの音声受信部１１１により受信された、会議室Ａのユーザが発話した前記音声を認識してテキストデータに変換する。

ここで、前記音声認識は、ユーザが発話した音声の音声データを文字列に変換することをいう。また、前記音声認識には、変換した文字列と辞書データベースに登録された単語とをパターンマッチングする処理が含まれてもよい。

また、音声認識部１１３は、前記音声をスピーカ１３から出力させる。例えば、音声処理装置１Ａの音声認識部１１３は、会議室Ｂのユーザが発話した前記音声を会議室Ａのスピーカ１３から出力させる。また例えば、音声処理装置１Ｂの音声認識部１１３は、会議室Ａのユーザが発話した前記音声を会議室Ｂのスピーカ１３から出力させる。

また、音声認識部１１３は、前記テキストデータに対応するテキスト情報を表示装置２に表示させる。例えば、音声処理装置１Ａの音声認識部１１３は、会議室Ｂのユーザが発話した前記音声に対応するテキスト情報を会議室Ａの表示装置２Ａに表示させる。また例えば、音声処理装置１Ｂの音声認識部１１３は、会議室Ａのユーザが発話した前記音声に対応するテキスト情報を会議室Ｂの表示装置２Ｂに表示させる。

音声判定部１１４は、第１拠点から受信する第１音声の認識結果と、第２拠点から受信する第２音声の認識結果とに基づいて、第１拠点及び第２拠点間の前記音声の送受信状態を判定する。具体的には、音声判定部１１４は、会議室Ａのユーザが発話した音声の認識結果と、会議室Ｂのユーザが発話した音声の認識結果とに基づいて、会議室Ａ及び会議室Ｂ間の音声の送受信状態を判定する。

例えば、音声処理装置１Ａの音声判定部１１４は、音声認識部１１３により会議室Ｂのユーザの音声に対応する第１ワードが認識され、かつ、音声認識部１１３により会議室Ａのユーザの音声に対応する予め設定された特定のキーワード（図３参照）が認識された場合に、前記送受信状態を異常と判定する。例えば図６に示すように、会議室Ｂのユーザが「こんにちは」（前記第１ワード）を発話し、会議室Ａのユーザが「聞こえない」（前記キーワード）を発話し、音声処理装置１Ａの音声認識部１１３が前記第１ワード及び前記キーワードを認識した場合に、音声判定部１１４は、前記送受信状態を異常と判定する。この場合には、例えば会議室Ａにおいて、前記第１ワードの「こんにちは」は、表示装置２Ａにテキスト情報として表示されるが、スピーカ１３から正常に出力されない問題が生じる。

また、音声判定部１１４は、音声認識部１１３により会議室Ｂのユーザの音声に対応する第１ワードが認識されず、かつ、音声認識部１１３により会議室Ａのユーザの音声に対応する予め設定された特定のキーワード（図３参照）が認識された場合に、前記送受信状態を異常と判定する。例えば図６に示すように、会議室Ｂのユーザが「こんにちは」（前記第１ワード）を発話し、会議室Ａのユーザが「聞こえない」（前記キーワード）を発話し、音声処理装置１Ａの音声認識部１１３が前記第１ワードを認識できず、かつ前記キーワードを認識した場合に、音声判定部１１４は、前記送受信状態を異常と判定する。この場合には、例えば会議室Ａにおいて、前記第１ワードの「こんにちは」は、表示装置２Ａにテキスト情報として表示されず、スピーカ１３から正常に出力されない問題が生じる。

ここで、音声判定部１１４は、例えば、音声認識部１１３がユーザが発話した音声の音声データを文字列に変換したか否かにより音声認識できたか否かを判定する。音声判定部１１４は、前記音声データが文字列に変換された場合に音声認識できたと判定する。また、音声判定部１１４は、変換した文字列からなる単語が辞書データベースに登録されている場合に音声認識できたと判定してもよい。

また、音声判定部１１４は、自拠点のスピーカ１３の音量（設定音量）、自拠点及び他拠点間のネットワーク帯域の状況、他拠点から受信する音声のノイズの大きさ、他拠点から受信する音声の聞こえ具合などを判定する。例えば、音声判定部１１４は、音声処理装置１Ａのスピーカ１３の設定音量が最大値の５０％以上であるか否かを判定する。また、音声判定部１１４は、会議室Ａ及び会議室Ｂ間のネットワーク帯域が十分（送受信データ量が１．５Ｍｂｐｓ以上）であるか否かを判定する。また、音声判定部１１４は、会議室Ｂから受信する音声のノイズが大きい（ＳＮ比が０ｄｂ未満）か否かを判定する。また、音声判定部１１４は、会議室Ｂから受信する音声の聞こえ具合が「途切れ途切れ」又は「全く聞こえない」かを判定する。

ここで、例えば、音声認識部１１３がユーザが発話した音声の音声データを文字列に変換し、変換した文字列が辞書データベースに登録されていない場合に、音声判定部１１４は、前記音声の聞こえ具合を「途切れ途切れ」と判定してもよい。例えば、音声認識部１１３が前記音声データを変換して「こん」及び「ちは」を認識した場合、これらの文字列は辞書データベースに登録されていない。また、音声判定部１１４は、「こん」及び「ちは」に基づき、辞書データベースを参照して「こんにちは」を予測することが可能である。このように、音声判定部１１４は、音声認識した文字列に基づいて予測した単語の一部が認識できない場合に、前記聞こえ具合を「途切れ途切れ」と判定する。

情報提示部１１５は、音声判定部１１４により前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための対処メッセージ（特定情報）を提示する。具体的には、情報提示部１１５は、判定情報Ｄ２を参照して音声判定部１１４の判定結果に対応する対処情報を特定し、さらに対処情報Ｄ３を参照して当該対処情報に対応する対処メッセージを取得してユーザに提示する。

例えば、音声処理装置１Ａの情報提示部１１５は、音声処理装置１Ａのスピーカ１３の音量と音声処理装置１Ａが受信する会議室Ｂのユーザの音声のノイズの大きさとに基づく対処メッセージを会議室Ｂにおいて提示する。なお、音声処理装置１Ａの情報提示部１１５は、音声処理装置１Ａのスピーカ１３の音量と、音声処理装置１Ａが受信する会議室Ｂのユーザの音声のノイズの大きさとの少なくともいずれかに基づく対処メッセージを会議室Ｂにおいて提示してもよい。

また例えば、音声処理装置１Ａの情報提示部１１５は、会議室Ａ及び会議室Ｂ間のネットワークの帯域状況と音声処理装置１Ａが受信する会議室Ｂのユーザの音声のノイズの大きさとに基づく対処メッセージを会議室Ｂにおいて提示する。なお、音声処理装置１Ａの情報提示部１１５は、会議室Ａ及び会議室Ｂ間のネットワークの帯域状況と、音声処理装置１Ａが受信する会議室Ｂのユーザの音声のノイズの大きさとの少なくともいずれかに基づく対処メッセージを会議室Ｂにおいて提示してもよい。

情報提示部１１５は、会議室Ｂに設けられる表示装置２Ｂに前記対処メッセージを表示させる。また、情報提示部１１５は、会議室Ａに設けられる表示装置２Ａと会議室Ｂに設けられる表示装置２Ｂとに同一又は異なる前記対処メッセージを表示させてもよい。

［情報提示処理］
以下、図９を参照しつつ、音声処理装置１の制御部１１によって実行される情報提示処理の手順の一例について説明する。ここでは、図１に示す会議システム１００において、音声処理装置１Ａの制御部１１によって実行される情報提示処理に着目して説明する。例えば、音声処理装置１Ａの制御部１１が会議システムを開始することにより前記情報提示処理プログラムの実行を開始することによって、前記情報提示処理の実行を開始する。なお、前記情報提示処理は、音声処理装置１Ａ，１Ｂのそれぞれにおいて、個別に並行して実行される。

なお、本発明は、前記情報提示処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記情報提示処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記情報提示処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１によって前記情報提示処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、１又は複数のプロセッサによって前記情報提示処理における各ステップが分散して実行されてもよい。

ステップＳ１１において、音声処理装置１Ａの制御部１１は、会議室Ｂのユーザが発話した音声を認識したか否かを判定する。制御部１１が会議室Ｂのユーザの前記音声を認識した場合（Ｓ１１：ＹＥＳ）、処理はステップＳ１２に移行する。制御部１１が会議室Ｂのユーザの前記音声を認識できない場合（Ｓ１１：ＮＯ）、処理はステップＳ２１（図１０参照）に移行する。ステップＳ１１は、本発明の音声認識ステップの一例である。

ステップＳ１２において、音声処理装置１Ａの制御部１１は、会議室Ａのユーザからキーワード情報Ｄ１（図３参照）に登録された前記キーワードを認識（検知）したか否かを判定する。制御部１１が前記キーワードを認識しない場合（Ｓ１２：ＮＯ）、処理はステップＳ１３に移行する。制御部１１が前記キーワードを認識した場合（Ｓ１２：ＹＥＳ）、処理はステップＳ１４に移行する。すなわち、制御部１１は、前記キーワードを認識しない場合（Ｓ１２：ＮＯ）、会議室Ａ及び会議室Ｂ間の前記音声の送受信状態を正常と判定し、前記キーワードを認識した場合（Ｓ１２：ＹＥＳ）、会議室Ａ及び会議室Ｂ間の前記音声の送受信状態を異常と判定する。

ステップＳ１３において、音声処理装置１Ａの制御部１１は、会議室Ａ及び会議室Ｂ間の音声の送受信状態を正常と判定して、対処メッセージの提示処理は行わない。すなわち、この場合には、会議室Ａの音声及び会議室Ｂの音声が正常に送受信される。

ステップＳ１４において、音声処理装置１Ａの制御部１１は、音声処理装置１Ａのスピーカ１３の設定音量が閾値（例えば最大値の５０％）以上であるか否かを判定する。前記設定音量が閾値以上である場合（Ｓ１４：ＹＥＳ）、処理はステップＳ１５に移行する。前記設定音量が閾値未満である場合（Ｓ１４：ＮＯ）、処理はステップＳ１６に移行する。

ステップＳ１５において、音声処理装置１Ａの制御部１１は、会議室Ｂから受信する音声のノイズ（ＳＮ比）が閾値（例えば０ｄｂ）未満であるか否かを判定する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）未満である場合（Ｓ１５：ＹＥＳ）、処理はステップＳ１７に移行する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）以上である場合（Ｓ１５：ＮＯ）、処理はステップＳ１８に移行する。

ステップＳ１６において、音声処理装置１Ａの制御部１１は、ステップＳ１５と同様に、会議室Ｂから受信する音声のノイズ（ＳＮ比）が閾値（０ｄｂ）未満であるか否かを判定する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）未満である場合（Ｓ１６：ＹＥＳ）、処理はステップＳ１９に移行する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）以上である場合（Ｓ１６：ＮＯ）、処理はステップＳ２０に移行する。ステップＳ１２〜Ｓ１６は、本発明の音声判定ステップの一例である。

ステップＳ１７〜Ｓ２０において、音声処理装置１Ａの制御部１１は、会議室Ａ及び会議室Ｂ間の前記音声の送受信状態の異常を解消するための対処メッセージを提示する。ステップＳ１７〜Ｓ２０は、本発明の情報提示ステップの一例である。

例えばステップＳ１７では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報１に対応する対処メッセージＭ１を会議室Ｂの表示装置２Ｂに表示させる（図６参照）。

また例えばステップＳ１８では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報２に対応する対処メッセージＭ２を会議室Ａの表示装置２Ａと、会議室Ｂの表示装置２Ｂとに表示させる（図７参照）。

また例えばステップＳ１９では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報３に対応する対処メッセージを会議室Ａの表示装置２Ａと、会議室Ｂの表示装置２Ｂとに表示させる。

また例えばステップＳ２０では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報４に対応する対処メッセージを会議室Ａの表示装置２Ａと、会議室Ｂの表示装置２Ｂとに表示させる。

ここでステップＳ１１において音声処理装置１Ａの制御部１１が会議室Ｂのユーザの前記音声を認識できない場合（Ｓ１１：ＮＯ）、ステップＳ２１（図１０参照）において、音声処理装置１Ａの制御部１１は、会議室Ａのユーザからキーワード情報Ｄ１（図３参照）に登録された前記キーワードを認識（検知）したか否かを判定する。制御部１１が前記キーワードを認識しない場合（Ｓ２１：ＮＯ）、処理はステップＳ２２に移行する。制御部１１が前記キーワードを認識した場合（Ｓ２１：ＹＥＳ）、処理はステップＳ２３に移行する。制御部１１は、前記キーワードを認識しない場合（Ｓ２１：ＮＯ）、音声トラブルの原因を特定することが困難であるため、対処メッセージを提示しない。なお、この場合、制御部１１は、音声トラブルが発生していることを示すメッセージを会議室Ａの表示装置２Ａと会議室Ｂの表示装置２Ｂとに表示させてもよい。

ステップＳ２３において、音声処理装置１Ａの制御部１１は、会議室Ａ及び会議室Ｂ間のネットワーク帯域（送受信データ量）が閾値（例えば１．５Ｍｂｐｓ）以上であるか否かを判定する。前記ネットワーク帯域（送受信データ量）が閾値以上である場合（Ｓ２３：ＹＥＳ）、処理はステップＳ２４に移行する。前記ネットワーク帯域（送受信データ量）が閾値未満である場合（Ｓ２３：ＮＯ）、処理はステップＳ２５に移行する。

ステップＳ２４において、音声処理装置１Ａの制御部１１は、ステップＳ１５と同様に、会議室Ｂから受信する音声のノイズ（ＳＮ比）が閾値（０ｄｂ）未満であるか否かを判定する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）未満である場合（Ｓ２４：ＹＥＳ）、処理はステップＳ２６に移行する。前記ノイズ（ＳＮ比）が閾値（０ｄｂ）以上である場合（Ｓ２４：ＮＯ）、処理はステップＳ２６に移行する。

ステップＳ２５において、音声処理装置１Ａの制御部１１は、会議室Ｂから受信する音声の聞こえ具合が「途切れ途切れ」又は「全く聞こえない」か、例えば受信音声データがあるか否かを判定する。会議室Ｂから前記受信音声データがある場合（聞こえ具合が「途切れ途切れ」の場合）、処理はステップＳ２８に移行する。会議室Ｂから前記受信音声データがない場合（聞こえ具合が「全く聞こえない」の場合）、処理はステップＳ２９に移行する。ステップＳ２１〜Ｓ２５は、本発明の音声判定ステップの一例である。

ステップＳ２６〜Ｓ２９において、音声処理装置１Ａの制御部１１は、会議室Ａ及び会議室Ｂ間の前記音声の送受信状態の異常を解消するための対処メッセージを提示する。ステップＳ２６〜Ｓ２９は、本発明の情報提示ステップの一例である。

例えばステップＳ２６では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報５に対応する対処メッセージを会議室Ｂの表示装置２Ｂに表示させる。

また例えばステップＳ２７では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報６に対応する対処メッセージを会議室Ｂの表示装置２Ｂに表示させる。

また例えばステップＳ２８では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報７に対応する対処メッセージを会議室Ａの表示装置２Ａと、会議室Ｂの表示装置２Ｂとに表示させる。

また例えばステップＳ２９では、音声処理装置１Ａの制御部１１は、判定情報Ｄ２及び対処情報Ｄ３を参照して、対処情報８に対応する対処メッセージを会議室Ａの表示装置２Ａと、会議室Ｂの表示装置２Ｂとに表示させる。

以上のようにして、会議システム１００は、前記情報提示処理を実行する。上述のように、本実施形態に係る会議システム１００は、第１拠点から受信する第１音声の認識結果と、第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定し、前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する。具体的には、会議システム１００は、前記第１音声を認識できたか否かを示す結果と、前記第２音声を認識して取得したワードの内容との組み合わせに応じた特定情報を提示する。これにより、ネットワークの帯域不足、遅延、マイク及びスピーカの不具合などが生じて、音声通話が途切れるといった音声トラブルが生じた場合に、当該音声トラブルの原因を特定して当該音声トラブルを解消するための特定情報がユーザに提示される。ユーザは、前記特定情報を取得すると前記音声トラブルを解消するための操作を行う。このため、前記音声トラブルを早期に解消することが可能となる。

ここで、本発明の前記特定情報は、前記対処メッセージ（図５参照）に限定されない。例えば、図８に示すように、情報提示部１１５は、前記送受信状態の異常を識別可能なオブジェクト画像Ｐ２を表示装置２に表示させてもよい。例えば、音声処理装置１Ｂのマイク１４の設定値に前記音声トラブルの原因がある場合に、音声処理装置１Ａの情報提示部１１５は、マイク１４を示すオブジェクト画像Ｐ２（図８参照）を表示装置２Ｂに表示させる。また、情報提示部１１５は、オブジェクト画像Ｐ２を点灯又は点滅させる強調表示を行ってもよい。前記オブジェクト画像Ｐ２は、前記送受信状態の異常を識別可能であればよく、例えばマイク、スピーカ、ビデオ、ネットワークなどを示す画像などが挙げられる。

上記の構成によれば、会議室Ｂのユーザは、音声処理装置１Ｂのマイク１４が音声トラブルの原因であることを容易に認識することが可能となる。

また、本発明の音声処理システムは、サーバを含んで実現することも可能である。例えば図１１に示すように、会議システム１００は、サーバ１０と、会議室Ａに設置される表示装置２Ａ、マイク３Ａ、スピーカ４Ａと、会議室Ｂに設置される表示装置２Ｂ、マイク３Ｂ、スピーカ４Ｂとにより構成されてもよい。サーバ１０は、音声処理装置１（図２参照）に含まれる制御部１１、記憶部１２、及び通信インターフェース１５などを備える。

サーバ１０は、会議室Ａから受信する第１音声の認識結果と、会議室Ｂから受信する第２音声の認識結果とに基づいて、会議室Ａ及び会議室Ｂ間の前記音声の送受信状態を判定し、前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を表示装置２Ａ，２Ｂ等に提示する。すなわち、図１１に示すサーバ１０は、本発明の音声処理システムの一例である。

尚、本発明の音声処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

１：音声処理装置
１Ａ：音声処理装置
１Ｂ：音声処理装置
２：表示装置
２Ａ：表示装置
２Ｂ：表示装置
３Ａ：マイク
３Ｂ：マイク
４Ａ：スピーカ
４Ｂ：スピーカ
１３：スピーカ
１４：マイク
１００：会議システム
１１１：音声受信部
１１２：音声送信部
１１３：音声認識部
１１４：音声判定部
１１５：情報提示部

Claims

ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理システムであって、
前記音声を受信する音声受信部と、
前記音声受信部より受信される前記音声を認識する音声認識部と、
前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定部と、
前記音声判定部により前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示部と、
を備える音声処理システム。
前記情報提示部は、前記音声認識部が前記第１音声を認識できたか否かを示す結果と、前記音声認識部が前記第２音声を認識して取得したワードの内容との組み合わせに応じた前記特定情報を提示する、
請求項１に記載の音声処理システム。
前記音声判定部は、前記音声認識部により前記第１音声に対応する第１ワードが認識され、かつ、前記音声認識部により前記第２音声に対応する予め設定された特定ワードが認識された場合に、前記送受信状態を異常と判定する、
請求項１又は請求項２に記載の音声処理システム。
前記情報提示部は、前記第２拠点に設けられるスピーカの音量と、前記第２拠点で受信される前記第１音声のノイズの大きさとの少なくともいずれかに基づく前記特定情報を前記第１拠点において提示する、
請求項３に記載の音声処理システム。
前記音声判定部は、前記音声認識部により前記第１音声に対応する第１ワードが認識されず、かつ、前記音声認識部により前記第２音声に対応する予め設定された特定ワードが認識された場合に、前記送受信状態を異常と判定する、
請求項１又は請求項２に記載の音声処理システム。
前記情報提示部は、前記第１拠点及び前記第２拠点間の前記ネットワークの帯域状況と、前記第２拠点で受信される前記第１音声のノイズの大きさとの少なくともいずれかに基づく前記特定情報を前記第１拠点において提示する、
請求項５に記載の音声処理システム。
前記情報提示部は、前記第１拠点に設けられる第１表示パネルに前記特定情報を表示させる、
請求項３に記載の音声処理システム。
前記情報提示部は、さらに前記第２拠点に設けられる第２表示パネルに前記特定情報を表示させる、
請求項７に記載の音声処理システム。
前記特定情報は、前記送受信状態の異常を解消するためのメッセージと、前記送受信状態の異常を識別可能なオブジェクト画像とを含む、
請求項１から請求項８のいずれか１項に記載の音声処理システム。
ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理方法であって、
前記音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記音声を認識する音声認識ステップと、
前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定ステップと、
前記音声判定ステップにより前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示ステップと、
を一又は複数のプロセッサにより実行する音声処理方法。
ネットワークを介して接続された第１拠点及び第２拠点において、ユーザが発話した音声を送受信する音声処理プログラムであって、
前記音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記音声を認識する音声認識ステップと、
前記第１拠点から受信する第１音声の認識結果と、前記第２拠点から受信する第２音声の認識結果とに基づいて、前記第１拠点及び前記第２拠点間の前記音声の送受信状態を判定する音声判定ステップと、
前記音声判定ステップにより前記送受信状態が異常と判定された場合に、前記送受信状態の異常を解消するための特定情報を提示する情報提示ステップと、
を一又は複数のプロセッサにより実行させるための音声処理プログラム。