JP6929811B2

JP6929811B2 - 音声対話端末、および音声対話端末制御方法

Info

Publication number: JP6929811B2
Application number: JP2018045903A
Authority: JP
Inventors: 小林　丈朗; 丈朗小林; 好理大久保; 大石丸; 吉沢　純一; 純一吉沢
Original assignee: TVS Regza Corp
Current assignee: TVS Regza Corp
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2021-09-01
Anticipated expiration: 2038-03-13
Also published as: WO2019174604A1; JP2019159121A; CN112189230A

Description

本実施形態は、音声対話端末および音声対話端末の制御方法に関するものである。

ユーザが発した音声を例えばマイクで収集し、収集した音声を音声認識処理により解析することでユーザが発した内容を判別し、その判別した内容に応じた応答をユーザに提供する音声対話システムがある。この音声対話システムは、音声対話サービスの部分と音声対話端末の部分の大きく２つの部分を含む。

音声対話サービスの部分は、ユーザが発した内容を入力として、入力された内容を音声認識処理により解析し、その解析結果に応じた応答をユーザに提供する機能を持つ。

音声対話端末の部分は、マイクで収集したユーザの発話内容を、音声データとして音声対話サービスに入力したり、音声対話サービスが出力する応答の内容を、ユーザに対して音声として出力したり周辺機器の制御を行ったりする機能を持つ。

さらに、音声対話サービスは、ユーザが発した内容の入力に対応した応答の提供ではなく、音声対話サービスが自発的に音声対話端末に情報を提供する場合もある。

特開２０１７−１２２９３０号公報

音声対話端末において出力する音声ボリュームの大きさは、ユーザが設定するのが一般的である。さらに音声対話端末の種類によっては、音声対話向けのボリュームに加え、例えば目覚まし等アラーム機能向けのボリューム等、機能ごとに個別に音声ボリュームが設定可能な機器も存在する。

一方、音声対話サービスが自発的に音声対話端末に情報を提供する場合、音声対話端末が、その提供された情報を音声として出力する場合は、音声対話向けのボリュームの値を使用するのが一般的である。

対話音声対話サービスが自発的に提供するサービスの内容は、ユーザにとっては緊急性の高い情報あるいは重要度の高い情報である。音声対話端末は、このような緊急性の高い情報あるいは重要度の高い情報を音声として出力する場合でも、通常の音声対話向けのボリューム値で出力を行う。

このため、緊急性の高い情報あるいは重要度の高い情報をユーザに伝えたい場合であっても、通常の音声対話向けのボリュームの値が低く設定されていると、その低く設定されたボリュームの値でしか音声を出力できず、ユーザが出力された音声の緊急性や重要性を認識できない、という課題があった。

そこで本実施形態では、音声対話端末が、音声対話サービスが自発的に提供する情報を、音声対話端末に設定されているボリューム値を用いて出力するのではなく、音声対話サービスから通知されたボリューム値を用いて出力する、音声対話サービスおよび音声対話装置からなる音声対話システムを提供することを目的とする。

本実施形態の音声対話端末は、外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、外部から入力される前記音声を収集する音声入力部と、前記音声入力部から入力された前記音声から第１のキーワードを検出するキーワード検出部と、前記キーワード検出部が前記第１のキーワードを検出した場合、前記音声対話サービスに対して、少なくとも、前記音声のうち前記第１のキーワードより後の前記音声を送信する制御部と、前記制御部により送信した前記音声に対応して前記音声対話サービスが送信する第１応答、または前記音声対話サービスが、前記制御部から送信した前記音声によらず自発的に送信する第１通知の内容とを音声で出力する発話部と、を有し、前記発話部は、前記第１通知の内容を、前記音声対話サービスが前記第１通知を送る際に付加したボリューム値の大きさの音声で出力する音声対話端末であって、
前記発話部は、前記第１応答の内容を、前記第１通知を送る際に付加したボリューム値を受信する前に予め前記発話部に設定されている第１応答ボリューム値の大きさの音声で出力する音声対話端末である。

図１は、一実施形態が適用された音声対話システムの概要を示す図である。図２は、図１に示した音声対話端末および音声対話サービスの詳細な構成図である。図３は、図２に示した音声対話端末と音声対話サービスにおいて、ユーザ５が発するトリガーワードを認識した音声対話端末１が、音声対話サービスＡ２−１と対話型の処理を行う場合の処理を行うシーケンスの例を示した図である。図４は、図２に示した音声対話端末と音声対話サービスにおいて、音声対話サービスＡが音声対話端末に対して自発的に情報を送信する自発型の処理を行う場合の処理シーケンスの例を示した図である。図５Ａは、音声対話サービスＡが、発話音声データとその発話音声データを音声対話端末１の発話部で発話する際のボリューム値とを、１つのデータの塊として送信する場合の発話制御データのフォーマットの一例である。図５Ｂは、音声対話サービスＡが、発話音声データとその発話音声データを音声対話端末１の発話部で発話する際のボリューム値とを、別々のデータの塊として送信する場合の発話制御データのフォーマット５０１−２の一例である。図６Ａは、図５Ａおよび図５Ｂに示すデータフォーマットの発話ボリューム値５０２に設定する値が数値の場合の、発話ボリューム値５０２に設定する値と音声対話端末１の発話部２０６が音声データを発話する際のボリューム値との関係を示した図である。図６Ｂは、図５Ａおよび図５Ｂに示すデータフォーマットの発話ボリューム値５０２に設定する値が識別子の場合の、発話ボリューム値５０２に設定する値と音声対話端末１の発話部２０６が音声データを発話する際のボリューム値との関係を示した図である。図７は、音声対話端末が、図５に示したボリューム値を含む発話制御データを受信した場合の処理フローを示した図である。図８Ａは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。図８Ｂは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。図８Ｃは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。図９Ａは、音声対話サービスＡ２−１が、外部からのイベントＡ９００に引き続き、外部からのイベントＢ９１０にも対応して自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。図９Ｂは、音声対話端末１が音声対話サービスＡ２−１と音声対話サービスＢ２−２とを切り替えて使用することが可能な場合に、各々の音声対話サービスにおける外部イベントに対応して自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。

以下、本発明の実施の形態について図面を参照して説明する。

図１は、本発明の実施形態が適用された音声対話端末１を含む音声対話システムの概要を示す図である。本音声対話システムは、例えば家屋４に配置された音声対話端末１とクラウド上に存在する音声対話サービス２とからなる、音声対話端末１と音声対話サービス２は、ネットワーク３を介して互いに通信を行うことが可能である。

音声対話端末１は、またＢｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｗｉ−Ｆｉ等の近距離無線通信システムを介して、家屋４の中に設置されている照明１０やエア・コンディショナー（エアコン）１１、録画再生機器１２と通信を行うことが可能である。また音声対話端末１は、赤外線通信のようなペアリングを必要としない通信方式を介して周辺機器を制御することも可能である。また音声対話端末１は、ここに示した電子機器以外の電子機器とも通信を行うことは可能である。

音声対話サービス２は、音声対話サービスＡ２−１と音声対話サービスＢ２−２の２つの音声対話サービスを含む。音声対話サービスＡ２−１と音声対話サービスＢ２−２のいずれを用いるかは、ユーザが発するトリガーワードによって決定される。

なお図１の例は、音声対話サービス２が音声対話サービスＡ２−１と音声対話サービスＢ２−２の２つの音声対話サービスが存在する例を示しているが、例えば１つの音声対話サービスしか存在しない場合でも、３つ以上の音声対話サービスが存在する場合であってもよい。

ユーザが音声対話端末１に対して発話すると、音声対話端末１は、備え付けのマイクから収集したユーザの発話の音声データを、ネットワーク３を介して音声対話サービス２に送る。

音声対話端末１から送られてきた音声データを受信した音声対話サービス２は、受信した音声データの解析を行い、解析した内容に応じた応答を生成する。音声対話サービス２は、応答を生成すると、ネットワーク３を介してその生成した応答を音声対話端末１に送信する。

音声対話サービス２が生成する応答は、音声による応答とコマンドによる応答の２種類の応答を含む。音声による応答は、音声対話端末１から入力される音声データに応じて音声対話サービス２が生成する応答である。コマンドによる応答は、音声対話端末１から入力される音声データに応じて音声対話端末１がもつ電子機器（デバイス）あるいは音声対話端末１と近距離無線通信システム等を介して接続されている周辺機器（周辺デバイス）を制御するコマンドである。音声対話端末１がもつ電子機器（デバイス）は、例えば付属するカメラである。音声対話端末１と近距離無線通信システム等で接続されている周辺機器（周辺デバイス）は、例えば照明１０やエア・コンディショナー（エアコン）１１である。

音声データによる応答の応答内容は、ユーザが音声対話端末１に対して発話した例えば「おはよう」に対する「おはようございます。今日は元気ですか？」のようにユーザが発話した内容に対応した返事である。また例えば「今から新幹線に乗って大阪に行くと何時に着くかな？」という質問に対する「今から３０分後に出発すれば、夜の８時までに大阪駅に到着します」のようにユーザの問い掛けに対応した回答である。

音声対話サービス２から応答を受け取った音声対話端末１は、その応答が音声データによる応答の場合は、その応答の内容を、例えば備え付けのスピーカーより音声として出力することができる。これによりユーザは、自らの発話に対する音声対話システムの応答を聞くことができる。

コマンドによる応答の応答内容は、ユーザが音声対話端末１に対して発話した例えば「エアコンつけて」に対する「デバイス＝エアコン１０、操作＝ＯＮ、モード＝冷房、設定＝温度２６度、風量最大」の内容のコマンドである。また例えば「ちょっと電気つけて」に対する「デバイス＝照明１０、操作＝ＯＮ」の内容のコマンドである。

音声対話サービス２から応答を受け取った音声対話端末１は、その応答がコマンドによる応答の場合は、コマンドに含まれている制御対象のデバイスの制御を行う。例えばコマンドの内容が「デバイス＝エアコン１０、操作＝ＯＮ、モード＝冷房、設定＝温度２６度、風量最大」の場合、音声対話端末１は、エアコン１１を温度２６度、風量最大の設定で起動するように、内部に持つＷｉ-Ｆｉ、ＺｉｇＢｅｅ、Ｂｌｕｅｔｏｏｔｈ等の近距離無線通信システムを介して制御する。

コマンドによる応答の内容は、ユーザが音声対話端末１に対して発した例えば「ＡＡＡ動画サービスのＢＢＢコンテンツを再生して」に対する「ｐｌａｙｆｒｏｍｗｗｗ．ｘｘｘｘｘｘ．ｃｏ．ｊｐ／ｍｕｓｉｃＢＢＢ．ｗａｖ」のように、コマンドの部分である「ｐｌａｙ」とユーザの発話の内容をもとにテキストデータに変換した部分である「ｗｗｗ．ｘｘｘｘｘｘ．ｃｏ．ｊｐ／ｍｕｓｉｃＢＢＢ．ｗａｖ」から構成される場合もある。

音声対話サービス２から応答を受け取った音声対話端末１は、その応答がテキストデータを含むコマンドによる応答の場合は、コマンドの解釈に加えてテキストデータ部分の解釈も行い、制御対象のデバイスの制御を行う。例えばコマンドの内容が「ｐｌａｙｆｒｏｍｗｗｗ．ｘｘｘｘｘｘ．ｃｏ．ｊｐ／ｍｕｓｉｃＢＢＢ．ｗａｖ」の場合、音声対話端末１は、ｗｗｗ．ｘｘｘｘｘｘ．ｃｏ．ｊｐ／ｍｕｓｉｃＢＢＢ．ｗａｖのデータを取得して、取得したデータを音声対話端末１内で再生してもよい。

このように音声対話サービス２は、ユーザとの対話に基づく情報の提供を行うことができる。

また音声対話サービス２は、音声対話端末１からの音声データの入力がない場合でも、自発的に音声対話端末１に情報を提供してもよい。

音声対話サービス２が自発的に提供する情報は、例えばユーザの近所のバス停へのバスの接近情報であったり、ユーザの居住地域への雨雲の接近情報であったりと、ユーザ個人のニーズに対応した情報であってもよいし、また例えば緊急地震速報や津波警報のように公共性の高い情報であってもよい。

図２は、図１に示した音声対話端末１および音声対話サービス２の詳細な構成図である。音声対話端末１と音声対話サービス２は、ネットワーク３を介して互いに通信することが可能である。

音声対話端末１は、トリガーワード検出部２０１、音声対話端末全体を制御する制御部２０２、音声対話端末１を制御するためのプログラムやワークメモリを含むシステムメモリー２０３、ネットワーク３を介して音声対話サービス２や周辺デバイスと通信するための通信制御部２０４、ユーザが発した発話を収集する音声入力部２０５、音声データによる応答を出力するための発話部２０６、音声対話端末１の状態、応答の内容、機能を設定する機能設定画面等を表示する表示部２０７、ユーザが操作する操作ボタン２０８からなる。

トリガーワード検出部（キーワード検出部と呼んでもよい）２０１は、ユーザが発話した内容からトリガーワードを検出する処理部である。

トリガーワードとは、ユーザが発話する、音声対話端末１との対話処理を開始するための所定のキーワードのことである。音声対話端末１は、ユーザが所定のキーワードであるトリガーワードを発話していることをトリガーワード検出部２０１で検出すると、トリガーワード以降のユーザの発話内容を、音声対話端末１に対して話しかけられているものとして、継続してユーザが発話した内容に対する処理を行う。

トリガーワード検出部２０１が検出すべきトリガーワードは、システムメモリー２０３のトリガーワード保存エリア（図示せず）に保存されている。トリガーワード検出部２０１は、設定されているどのトリガーワードがユーザから発話されても常に検出可能である。また、設定されているトリガーワードを検出した場合のみ、以降のユーザの発話内容を処理するために、検出したことを制御部２０２に通知する。通知を受けた制御部２０２は、以降のユーザの発話内容を、音声対話サービス２とデータのやり取りを行いながら処理していく。

通信制御部２０４は、音声対話サービス２との通信を制御する処理部である。通信制御部２０４は、ネットワーク３を介した音声対話サービス２との通信状態を監視し、音声対話サービス２との通信が可能かどうかを制御部２０２に通知する。また通信制御部２０４は、Ｂｌｕｅｔｏｏｔｈ、ＺｉｇＢｅｅ、Ｗｉ−Ｆｉ等の近距離無線通信システムや、赤外線通信の等の通信方式を含んでいてもよい。

音声入力部２０５は、例えばマイク等のユーザが発話した音声を収集できる処理部である。

発話部２０６は、音声対話サービス２が生成する応答が音声による応答の場合に、音声対話サービス２から送られてきた音声データの応答の内容を、音声で出力する処理部である。音声による応答の場合に、音声対話サービス２から送られてるデータは例えばテキストデータでもよく、テキストデータを受け取った発話部２０６は、音声合成機能を用いてテキストデータから音声データに変換し、音声で出力してもよい。また発話部２０６は、音声対話サービス２が自発的に情報を提供する場合でも、送られてきた音声データの内容を音声で出力する処理を行う。

音声対話サービス２は、音声対話サービスＡ２−１と音声対話サービスＢ２−２の２種類の音声対話サービスを持つ。音声対話サービスＡ２−１は、音声対話端末１から送られてくる音声データを認識して発話テキストに変換する音声認識システム２６１、発話テキストからユーザの発話の意図を理解する音声意図理解システム２６２、音声意図理解システム２６２により理解されたユーザの発した発話内容に対して応答を生成する対話処理システム２６３および自発処理システム２６５とからなる。

自発処理システム２６５は、音声認識システム２６１から対話処理システム２６３の音声対話端末１との対話に基づく処理とは異なり、外部からのイベントに対応して自発的に音声対話端末１に情報を提供する処理を行う。

また音声対話サービスＢ２−２は、音声対話サービスＡ２−１と同様に音声対話端末１から送られてくる音声データを認識してテキストデータに変換する音声認識システム２７１、音声データからテキストデータに変換された文字列の意図を理解する音声意図理解システム２７２、音声意図理解システム２７２により理解されたユーザの発した発話内容に対して応答を生成する対話処理システム２７３および自発処理システム２７５とからなる。

音声対話サービスＡ２−１および音声対話サービスＢ２−２は、それぞれ独自の得意とする音声対話サービス処理の特性を持ち、それぞれが異なる得意の処理分野（電気、医療、農業、スポーツ等の分野）を備えていてもよい。

図２の例は、音声対話サービス２が、音声対話サービスＡ２−１と音声対話サービスＢ２−２の２つの音声対話サービスを含む例を示しているが、例えば１つの音声対話サービスしか含まない場合でも、３つ以上の音声対話サービスを含む場合であってもよい。

図３は、図２に示した音声対話端末１と音声対話サービス２において、ユーザ５が発するトリガーワードを認識した音声対話端末１が、音声対話サービスＡ２−１と対話型の処理を行う場合の処理シーケンスの例を示した図である。なお音声対話端末１は、ユーザ５が発したトリガーワードがトリガーワードＡであると判定した場合は、音声対話サービスＡ２−１を使用して、ユーザ５の発話に対する応答を生成するように予め設定されているものとする。

ユーザ５が発話する（Ｓ３１０、Ｓ３１１）と、ユーザ５が発話した音声を収集した音声対話端末１の音声入力部２０５は、その収集した音声を音声データとしてトリガーワード検出部２０１に送る。トリガーワード検出部２０１は、音声入力部２０５から送られてきた音声データを、音声認識処理によりシステムメモリー２０３に予め保存されているトリガーワードと一致するかの判定を行う。

判定の結果、ユーザ５がＳ３１０、Ｓ３１１で発した発話がトリガーワードＡであることが判明した場合、音声対話端末１は音声対話サービスＡ２−１に対して対話開始指示を発行する（Ｓ３１２）。対話開始指示を受信（Ｓ３１２）した音声対話サービスＡ２−１は、音声対話端末１から送られてくる以降の音声データを解析するための準備を行う。

ユーザ５は、Ｓ３１０、Ｓ３１１の発話に引き続き音声対話端末１に対して発話を行う（Ｓ３１３、Ｓ３１４）。ユーザ５が発した発話の音声を収集した音声対話端末１は、ユーザ５の一連の発話（Ｓ３１３、Ｓ３１４）が終了したと認識すると、収集した発話の音声を音声データとして音声対話サービスＡ２−１に送信する（Ｓ３１５）。なお音声対話端末１は、ユーザ５の発話の途中でも、それまでに収集した発話の音声を順次音声データとして音声対話サービスＡ２−１に送信してもよい。

また、音声対話端末１がＳ３１５で音声対話サービスＡ２−１に送る音声データは、Ｓ３１３からＳ３１４のユーザの発話の音声データだけでも良いし、Ｓ３１０からＳ３１１のトリガーワードＡも含めた音声データでもよい。あるいはＳ３１０からＳ３１４の間のユーザの発話における、任意の区間の発話の音声データであってもよい。

音声対話端末１から送られきた音声データを受信した音声対話サービスＡ２−１は、受信した音声データを解析し、解析結果に対応した応答の生成を行う。応答の生成を完了した音声対話サービスＡ２−１は、生成した応答である発話制御データ（２）を音声対話端末１に送信する（Ｓ３１６）。

音声対話サービスＡ２−１から応答を受信した音声対話端末１は、その応答の内容に基づいて動作を行う。図３の例は、音声対話サービスＡ２−１が生成する応答である発話制御データ（２）が音声データの場合である。発話制御データ（２）を受信（Ｓ３１６）した音声対話端末１は、その応答の内容を、発話部２０６より音声として出力する（Ｓ３１７、Ｓ３１８）。

音声対話端末１は、応答を出力し終わると音声対話サービスＡ２−１に対して発話の出力が終了した旨である対話終了通知を送信する（Ｓ３１９）。

発話開始（２）３１７から発話終了（２）の間において音声対話端末１の発話部２０６が出力するボリューム値は、音声対話端末１に予め設定されている通常の音声対話向けボリュームの値である。

図４は、図２に示した音声対話端末１と音声対話サービス２において、音声対話サービスＡ２−１が音声対話端末１に対して自発的に情報を送信する自発型の処理を行う場合の処理シーケンスの例を示した図である。

音声対話サービスＡ２−１は、外部からイベントを受信すると（Ｓ４００）と、その受信したイベントに対応して音声対話端末１に対して発話制御データ（１）を送信する（Ｓ４０１）。音声対話端末１は、発話制御データ（１）を受信する（Ｓ４０１）と、その受信した発話制御データ（１）に対応した発話を行う（Ｓ４０２）。音声対話端末（１）は、受信した発話制御データ（１）に対応した発話を終了する（Ｓ４０３）と、終了した旨を発話終了通知として音声対話サービスＡ２−１に送信する（Ｓ４０４）。

ここで発話（１）開始（Ｓ４０２）から発話（１）終了（Ｓ４０３）の間における、音声対話端末１の発話部２０６が出力する発話のボリューム値は、音声対話サービスＡ２−１が指定した値である。

音声対話サービスＡ２−１が、音声対話端末１の発話部２０６が出力する発話のボリューム値を指定するために、音声対話サービスＡ２−１から音声対話端末１にボリューム値を送る必要がある。

図５Ａおよび図５Ｂは、図４に示す自発型の処理シーケンスにおいて、音声対話サービスＡ２−１が音声対話端末１に送信する発話制御データにボリューム値を含む場合のフォーマット例である。

図５Ａは、音声対話サービスＡ２−１が、発話音声データとその発話音声データを音声対話端末１の発話部２０６で発話する際のボリューム値とを、１つのデータの塊として送信する場合の発話制御データのフォーマット５００Ａの一例である。

発話音声ＩＤ５０１は、発話制御データの識別番号である。

発話ボリューム値５０２は、発話音声データ５０３の音声データを音声対話端末１の発話部２０６で発話する際のボリューム値である。

発話音声データ５０３は、音声対話端末１の発話部２０６が発話する音声データである。

この場合音声対話端末１は、発話音声データ５０３を含むデータの塊を発話部２０６で発話する際に、同一の発話音声ＩＤ５０１のデータの塊に含まれる発話ボリューム値５０２を用いて発話すればよい。

図５Ｂは、音声対話サービスＡ２−１が、発話音声データとその発話音声データを音声対話端末１の発話部２０６で発話する際のボリューム値とを、別々のデータの塊として送信する場合の発話制御データフォーマット５００Ｂの一例である。

この場合音声対話端末１は、発話音声ＩＤ５０１と発話ボリューム値５０２からなるデータの塊と、同一の識別番号が設定されている発話音声データ５０３を含むデータの塊を検出し、その検出したデータの塊に含まれる発話音声データ５０３を音声対話端末１の発話部２０６で発話する際に、発話ボリューム値５０２を用いて発話すればよい。

なお、音声対話サービスＡ２−１が発話ボリューム値５０２に設定するボリューム値は、数値であっても予め決められた識別子であってもよい。

識別子とは、音声対話端末１の発話部２０６が設定可能なボリューム値を１、２、３という数値で絶対的に表現するのではなく、ふつう、おおきめ、というようにボリューム値を相対的に表現するものである。

発話ボリューム値５０２に識別子が設定されている場合、音声対話端末１の発話部２０６は、識別子の値から数値に置き換えた値の大きさのボリューム値で音声データを出力する。

なお、図５Ａおよび図５Ｂでは、図４に示す自発型の処理シーケンスにおいて、音声対話サービスＡ２−１が音声対話端末１に送信する発話制御データにボリューム値を含む場合のフォーマット例を示したが、このフォーマットは、図３に示す対話型の処理シーケンスにおいて使用しても構わない。この場合音声対話サービスＡ２−１は、音声対話端末１に送信する発話制御データの発話ボリューム値５０２に、例えばＮＵＬＬを設定してもよい。発話制御データを受信した音声対話端末１の発話部２０６は、発話ボリューム値５０２にＮＵＬＬが設定されていることを認識した場合は、音声対話端末１に予め設定されているボリューム値を用いて、発話すればよい。

図６Ａは、図５Ａおよび図５Ｂに示すデータフォーマットの発話ボリューム値５０２に設定する値が数値の場合の、発話ボリューム値５０２に設定する値と音声対話端末１の発話部２０６が発話する際のボリューム値との関係を示した図である。

６０１は、音声対話サービスＡ２−１が発話制御データの発話ボリューム値５０２に設定する値である。６０２は、音声対話端末１の発話部２０６が音声データを発話する際のボリューム値である。

発話ボリューム値５０２に設定する値と発話部２０６が音声データを出力する際のボリューム値の組み合わせ６１０は、音声対話端末１の発話部２０６が、発話ボリューム値５０２に設定された値である５を用いて、ボリューム値５で発話した例である。

発話ボリューム値５０２に設定する値と発話部２０６が音声データを出力する際のボリューム値の組み合わせ６１１は、音声対話端末１の発話部２０６が、発話ボリューム値５０２に設定された値である５に対して、ボリューム値４で発話した例である。この例は
音声対話サービスＡ２−１が設定したボリューム値が、例えば音声対話端末１が持つボリューム値のレンジの上限を超えているため、発話部２０６が、設定可能なボリューム値の上限値である４に置き換えた例である。

図６Ｂは、図５Ａおよび図５Ｂに示すデータフォーマットの発話ボリューム値５０２に設定する値が識別子の場合の、発話ボリューム値５０２に設定する値と音声対話端末１の発話部２０６が音声データを発話する際のボリューム値との関係を示した図である。

図６Ｂの例では、識別子は、ふつう、おおきめ、ちいさめ、の３段階の値を持つものとする。

なお音声対話端末１の発話部２０６は、ボリューム値を１から７の７段階の数値で設定できるとともに、ふつう、おおきめ、ちいさめ、の３段階の識別子の値でも設定できるものとする。ここで発話部２０６は、発話ボリューム値５０２に設定されているボリューム値が識別子のふつうの場合、数値の４に置き換えたものボリューム値として設定して、音声データを発話するものとする。また発話部２０６は、発話ボリューム値５０２に設定されているボリューム値が識別子のおおきめの場合、数値の５に置き換えたものをボリューム値として設定して、音声データを発話するものとする。また発話部２０６は、発話ボリューム値５０２に設定されているボリューム値が識別子のちいさめの場合、数値の３に置き換えたものをボリューム値として設定して、音声データを発話するものとする。

発話ボリューム値５０２に設定する識別子と発話部２０６が音声データを出力する際のボリューム値の組み合わせ６２０は、音声対話端末１の発話部２０６が、発話ボリューム値５０２に設定されたボリューム値が識別子のおおきめを、数値の５に置き換えたものをボリューム値として設定して、音声データを出力した例である。

発話ボリューム値５０２に設定する値と発話部２０６が音声データを出力する際のボリューム値の組み合わせ６２１は、音声対話端末１の発話部２０６が、発話ボリューム値５０２に設定された識別子の値であるおおきめを、数値の６に置き換えたものをボリューム値として設定して、音声データを出力した例である。

なお図６Ｂの例の、発話部２０６が設定するボリューム値がふつうは、数値に置き換えると４であり、また発話部２０６が設定するボリューム値がおおきめは、数値に置き換えると５であり、また発話部２０６が設定するボリューム値が小さめは、数値に置き換えると３である、は一例であり、これに限らない。例えば識別子の値各々に対応する数値は、識別子の値のふつうに対応する数値が４であり、識別子の値のおおきめに対応する数値が７であり、識別子の値の小さめに対応する数値が１であってもよい。識別子の値は、例えばやや小さい、ふつう、やや大きい、大きい、最大、の５段階の値を持ってもよい。

このように、音声対話サービス２は、自発的に音声対話端末１に情報を提供する場合、例えば緊急度や重要度あるいは突発性等の、その提供する内容に応じて音声対話端末１から発話のする際のボリューム値を設定することができる。これにより音声対話端末１の利用者は、提供された情報の緊急性、重要性あるいは突発性を簡単に認識することが可能となり、音声対話システムを使う利用者の使い勝手が向上する。

また音声対話サービス２が、発話ボリューム値５０２にボリューム値を設定する際に、数値を設定するか、識別子を設定するかは、自発的に提供する情報の内容に応じて選択してもよい。例えば、緊急性が高くかつ公共性の高い情報は、識別子を設定してもよい。緊急性が高くかつ公共性の高い情報として、例えば緊急地震速報を提供する場合、音声対話サービス２は、端末仕様が異なる多数の音声対話端末１に対して、それぞれの端末仕様に適合した数値でボリューム値を個々音声対話端末１に対して設定するよりは、識別子を用いて例えば最大、と設定した方がはるかに早く提供する情報の送信処理を完了させることができる。

図７は、音声対話端末１が、図５に示したボリューム値を含む発話制御データを受信した場合の処理フローを示した図である。

音声対話端末１の通信制御部２０４は、発話制御データを受信すると受信処理を開始する（７００）。通信制御部２０４は、受信した発話制御データをパースして発話音声ＩＤ５０１、発話ボリューム値５０２および発話音声データ５０３を取得する（Ｓ７０１）。通信制御部２０４は、取得した発話ボリューム値５０２と発話音声データ５０３とを発話部２０６に転送する。発話部２０６は、転送されてきた発話音声データ５０３を、転送されてきた発話ボリューム値５０２を用いて出力する（Ｓ７０２）。

なお発話部２０６は、転送されてきた発話ボリューム値を用いて出力する発話音声データ５０３は、同一の発話音声ＩＤを持つ発話音声データ５０３に対してのみである。発話部２０６は、音声データの発話が完了すると、処理を終了する（Ｓ７０３）。

このように音声対話端末１の発話部２０６は、音声対話サービス２から自発的な情報が送られてきた場合のみ、送られてきた発話制御データに含まれる発話ボリューム値５０２を用いて、発話音声データ５０３の音声データの発話を行う。

次に、図３に示すような対話型の処理シーケンスおよび図４に示すような自発型の処理シーケンスの組み合わせ方により、発話部２０６が発話音声データを出力する場合のボリューム値が変化する様子を説明する。

図８Ａは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。

図８ＡのＳ８００からＳ８０９の処理は、図３のＳ３１０からＳ３１９の処理と同一である。またＳ８２０からＳ８２９の処理も、図３のＳ３１０からＳ３１９の処理と同一である。また、Ｓ８１０からＳ８１４の処理は、図４のＳ４００からＳ４０４の処理と同一である。

ここで音声対話端末１の発話部２０６が発話する通常の音声対話向けボリューム値は、例えば３として設定されているとする。一方、Ｓ８１３で音声対話サービスＡ２−１から送られてくる発話制御データに含まれる発話ボリューム値は、例えば数値の４とする。

この場合、発話（２）開始（Ｓ８０７）から発話（２）終了（Ｓ８０８）までの間の発話のボリューム値は、発話部２０６に設定されているボリューム値３である。一方発話（３）開始（Ｓ８１２）から発話（３）終了（Ｓ８１３）までの間の発話のボリューム値は、Ｓ８１１の処理で音声対話端末１が受信した発話制御データ（２）に含まれる発話ボリューム値、つまり数値の４である。またさらに発話（４）開始（Ｓ８２７）から発話（４）終了（Ｓ８２８）までの間の発話のボリューム値は、発話部２０６に設定されているボリューム値３である。

図８Ｂは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。

音声対話端末１が、マイクミュートの状態であるとする。ミュートの状態とは、例えば音声対話端末１の音声入力部２０５が、ユーザが発した発話を収集しないように設定された状態である。

マイクミュートの状態においては、図８Ｂに示すようにユーザ５がＳ８３０からＳ８３１に示すようにトリガーワードＡを発話し、続いてＳ８３３からＳ８３４に示すように発話（１）を行っても、音声対話端末１は、対話開始指示を音声対話サービスＡに送信しない。この結果、音声対話端末１は、Ｓ８３０からＳ８３１およびＳ８３３からＳ８３４の発話に対する応答を、ユーザ５に対して返さない。

このような状態において図４に示す自発型の処理シーケンスと同一であるＳ８４０からＳ８４４が行われた場合、発話（３）開始（Ｓ８４２）から発話（３）終了（Ｓ８４３）までの間の発話のボリューム値は、Ｓ８６１の処理で音声対話端末１が受信した発話制御データ（２）に含まれる発話ボリューム値、つまり数値の４である。

また発話（３）開始（Ｓ８６２）から発話（３）終了（Ｓ８６３）の後に、再びユーザ５がＳ８７０からＳ８７１およびＳ８７３からＳ８７４に示すように発話を行っても、音声対話端末１は、応答を発話しない。

図８Ｃは、図３に示す対話型の処理シーケンスの間に図４に示す自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。

ミュートの状態は、例えば音声対話端末１の発話部２０６が発話する際のボリューム値を０とした状態であってもよい。

発話部２０６が発話する際のボリューム値を０としたミュートの状態においては、図８Ｃに示すようにユーザ５がＳ８６０からＳ８６１に示すようにトリガーワードＡを発話し、続いてＳ８６３からＳ８６４に示すように発話（１）に対応して、音声対話サービスＡから発話制御データ（２）が送出されても（Ｓ８６６）、音声対話端末１はその発話制御データ（２）に対応して発話を行わない。この結果ユーザ５は、Ｓ８６０からＳ８６１およびＳ８６３からＳ８６４の発話に対する応答を聞くことができない。

このような状態において図４に示す自発型の処理シーケンスと同一であるＳ８７０からＳ８７４が行われた場合、発話（３）開始（Ｓ８７２）から発話（３）終了（Ｓ８７３）までの間の発話のボリューム値は、Ｓ８７１の処理で音声対話端末１が受信した発話制御データ（２）に含まれる発話ボリューム値、つまり数値の４である。

また発話（３）開始（Ｓ８７２）から発話（３）終了（Ｓ８７３）の後に、再びユーザ５がＳ８８０からＳ８８１およびＳ８８３からＳ８８４に示すように発話を行っても、音声対話端末１は、応答を発話しない。

このように音声対話端末１の発話部２０６は、自発型の処理シーケンスにおいてのみ、発話制御データに含まれる発話ボリューム値を用いて発話し、それ以外の場合においては、音声対話端末１に設定されているボリューム値や、ミュート状態等の設定状態に従って発話の制御を行うことができる。

さらに本実施形態の音声対話システムは、自発型の処理シーケンスが連続した場合でも、各々のシーケンスにおける発話制御データに含まれる発話ボリューム値の値に従って、発話部２０６が発話する音声データのボリューム値を設定することができる。

図９Ａは、音声対話サービスＡ２−１が、外部からのイベント（Ｓ９００）に引き続き、外部からのイベント（Ｓ９１０）にも対応して自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。Ｓ９００からＳ９０４の処理は、図４のＳ４００からＳ４０４の処理と同一である。また、Ｓ９１０からＳ９１４の処理も、図４のＳ４００からＳ４０４の処理と同一である。

ここで発話（１）開始（Ｓ９０２）から発話（１）終了（Ｓ９０３）までの間の発話のボリューム値は、Ｓ９０１の処理で音声対話端末１が受信した発話制御データ（１）に含まれる発話ボリューム値、例えば数値の４である。一方発話（２）開始（Ｓ９１２）から発話（２）終了（Ｓ９１３）までの間の発話のボリューム値は、Ｓ９１１の処理で音声対話端末１が受信した発話制御データ（２）に含まれる発話ボリューム値、例えば数値の２である。

なお本実施形態の音声対話システムは、図１で説明したように音声対話端末１は、複数の音声対話サービスを切り替えて使用することが可能である。

図９Ｂは、音声対話端末１が音声対話サービスＡ２−１と音声対話サービスＢ２−２とを切り替えて使用することが可能な場合に、各々の音声対話サービスにおける外部イベントに対応して自発型の処理シーケンスが行われた場合の、発話部２０６が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。

Ｓ９２０からＳ９２４の処理は、図４のＳ４００からＳ４０４の処理と同一である。また、Ｓ９３０からＳ９３４の処理も、図４のＳ４００からＳ４０４の処理と同一である。

ここで発話（１）開始（Ｓ９２２）から発話（１）終了（Ｓ９２３）までの間の発話のボリューム値は、Ｓ９２１の処理で音声対話端末１が受信した発話制御データ（１）に含まれる発話ボリューム値、例えば数値の４である。一方発話（２）開始（Ｓ９３２）から発話（２）終了（Ｓ９３３）までの間の発話のボリューム値は、Ｓ９３１の処理で音声対話端末１が受信した発話制御データ（２）に含まれる発話ボリューム値、例えば数値の２である。

図９Ｂのシーケンス例は、音声対話端末１が、音声対話サービスＡ２−１からの発話制御データ（１）を受信し（Ｓ９２１）、それに対する処理を行っている（Ｓ９２２からＳ９２４）間に音声対話サービスＢ２−２からの発話制御データ（２）を受信した（Ｓ９３１）例である。このような場合でも音声対話端末１は、受信した発話制御データに含まれる発話音声ＩＤにより、対応する発話音声データと発話ボリューム値を認識することが可能なため、それぞれ指定された発話ボリューム値を用いて、発話部２０６が発話する音声データのボリューム値を設定することが可能である。

さらに本実施形態の音声対話システムは、音声対話端末１の表示部２０７に表示されるメニューを用いて、音声対話サービス２が行う自発型の処理シーケンスによる自発型の情報提供サービスを選択したり、条件を設定したりすることが可能である。この音声対話サービスが行う自発型の処理シーケンスよる自発型の情報提供サービスの選択や条件設定は、自発型情報提供メニューの画面によりユーザが入力すると、その入力内容は、ネットワーク３を介して音声対話サービス２の自発処理システム２６５に登録される。

自発処理システム２６５は、外部からのイベントがあった場合、登録されている情報提供サービスの種類や条件を参照し、登録内容に合致した情報を、ユーザ５の音声対話端末５に提供する。

例えば音声対話端末１のユーザ５が、多数ある音声対話サービスが行う自発型情報提供サービスの中から、自分の好みにあった自発型情報提供サービスを選択することができる。自発処理システム２６５は、外部からのイベントがあった場合、登録されている情報提供サービスの種類を参照し、登録内容に合致した情報提供サービスの種類の情報を、ユーザ５の音声対話端末５に提供する。

また例えば音声対話端末１のユーザ５が、選択した自発型情報提供サービスＣにおいて、さらに提供される情報を絞り込みたい場合もある。例えばユーザ５は、自発型情報提供サービスＣが提供する情報のうち、自分が住んでいる場所近辺の情報だけ欲しい場合がある。この場合ユーザ５は、例えば自発型情報提供メニューの画面から音声対話端末１の位置情報を登録することができる。自発処理システム２６５は、外部からのイベントがあった場合、登録されている情報提供サービスＣの条件を参照し、情報提供サービスＣの情報のうち条件に合致した情報だけを、ユーザ５の音声対話端末５に提供する。

このように、音声対話サービスが自発的に音声対話端末に情報を提供する場合、緊急性の高い情報あるいは重要度の高い情報である場合がある。このような場合に対応するために、音声対話サービス２が音声対話端末１の発話部２０６が発話するボリューム値を指定する機能を用意することで、音声対話サービス２が提供する内容に応じて音声対話端末１の発話部２０６が発話するボリューム値を制御することが可能となり、ユーザに対して効果的に情報を提供することが可能となる。

またユーザ５は、音声対話サービス２が提供する自発型情報を、例えば提供される情報の地域性で絞り込む、等の自発型情報を絞り込むことが可能なため、ユーザのニーズにあった自発型情報を簡単に取得することが可能となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。

また、本明細書と各図において、既出の図に関して前述したものと同一又は類似した機能を発揮する構成要素には同一の参照符号を付し、重複する詳細な説明を適宜省略することがある。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。

１・・・音声対話端末、２・・・音声対話サービス、３・・・ネットワーク、２０１・・・トリガーワード検出部、２０２・・・制御部、２０３・・・システムメモリー、２０４・・・通信制御部、２０５・・・音声入力部、２０６・・・発話部、２０７・・・表示部、２０８・・・操作ボタン、２６１・・・音声認識システム、２６２・・・意図理解システム、２６３・・・対話処理システム、２６５・・・自発処理システム

Claims

外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、
外部から入力される前記音声を収集する音声入力部と、
前記音声入力部から入力された前記音声から第１のキーワードを検出するキーワード検出部と、
前記キーワード検出部が前記第１のキーワードを検出した場合、前記音声対話サービスに対して、少なくとも、前記音声のうち前記第１のキーワードより後の前記音声を送信する制御部と、
前記制御部により送信した前記音声に対応して前記音声対話サービスが送信する第１応答、または前記音声対話サービスが、前記制御部から送信した前記音声によらず自発的に送信する第１通知の内容とを音声で出力する発話部と、
を有し、
前記発話部は、前記第１通知の内容を、前記音声対話サービスが前記第１通知を送る際に付加したボリューム値の大きさの音声で出力する音声対話端末であって、
前記発話部は、前記第１応答の内容を、前記第１通知を送る際に付加したボリューム値を受信する前に予め前記発話部に設定されている第１応答ボリューム値の大きさの音声で出力する音声対話端末。
前記音声入力部および前記発話部は、前記第１通知の内容の出力を開始する直前の前記第１応答ボリューム値を、前記第１通知の内容の出力を完了したあとも引き続き保持する、請求項１に記載の音声対話端末。
外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、
外部から入力される前記音声を収集し、
入力された前記音声から第１のキーワードを検出し
前記音声対話サービスに対して、少なくとも、前記音声のうち前記第１のキーワードより後の音声を送信し、送信した前記音声に対応して前記音声対話サービスから送られてきた第１応答を受信するステップと、
前記音声対話サービスが、前記音声対話端末から送信した前記音声によらず自発的に送信する第１通知を受信するステップと、
を含み、
前記第１通知の内容を、前記第1通知に付加したボリューム値の大きさの音声で出力する音声対話端末制御方法であって、
前記第１応答の内容を、前記第１通知に付加したボリューム値を受信する前に予め発話部に設定されている第１応答ボリューム値の大きさの音声で出力する音声対話端末制御方法。