JP7217209B2

JP7217209B2 - 音声対話装置、音声対話方法、及びプログラム

Info

Publication number: JP7217209B2
Application number: JP2019144528A
Authority: JP
Inventors: 智彰萩原
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2023-02-02
Anticipated expiration: 2039-08-06
Also published as: JP2021026124A

Description

本発明は、音声対話装置、音声対話方法、及びプログラムに関する。

従来、ユーザと対話して、ユーザの発話による要求に応じた回答を提供する音声対話システム、特に、音声対話機能を有するエージェントシステムがある。音声対話システムでは、例えば、ローカルの音声対話装置でユーザの発話を取得して、サーバに送信し、サーバから得られた回答をユーザに提供する。また、受信環境が悪い場合や、ユーザの要求が簡易であり、回答が短文で済む場合などには、サーバからの回答に代えて、音声対話装置自体で回答を提供するハイブリッド形式のものもある。

他方、例えば、車両に搭載される車載装置では、受信環境が悪く、エラーレートが大きくなると、ノイズの発生の原因となる。従来、受信状態の悪化により音量レベルを調整した音声に対して、ノイズレベルの調整された擬似ノイズを付加する情報受信器がある（例えば、特許文献１参照）。

特開２００７－１７３９６７号公報

上記特許文献１に記載の情報受信機は、受信状態の悪化により音量レベルを調整した音声に対して、ノイズレベルの調整された擬似ノイズを付加することにより、無音状態を避けるとともに音声と擬似ノイズの混合結果をユーザに聴取させることができる。しかし、この情報受信器は、受信したディジタル音声放送信号のエラーレートに基づいて擬似ノイズが付加されるものであるので、例えば、ユーザの要求に対する回答がどの程度対応しているかの精度を表すことはできず、ユーザは、なぜその回答となるかわかりにくいことがあった。

本発明は、このような事情を考慮してなされたものであり、ユーザの要求に対する回答の精度をユーザに知らせることができる音声対話装置、音声対話方法、及びプログラムを提供することを目的の一つとする。

この発明に係る音声対話装置、音声対話方法、及びプログラムは、以下の構成を採用した。
（１）：この発明の一態様に係る音声対話装置は、音声情報を取得する音声取得部と、外部装置から、前記音声取得部により取得された前記音声情報に対する外部応答情報を受信して取得する第１情報取得部と、特定の音声情報に対する内部応答情報を記憶する記憶部と、前記記憶部から、前記音声取得部により取得された前記音声情報に対する内部応答情報を取得する第２情報取得部と、前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させる出力制御部と、を備え、前記出力制御部は、前記内部応答情報を出力させる場合、前記内部応答情報とともに効果音を前記出力部に出力させる、音声対話装置である。

（２）：上記（１）の態様において、前記内部応答情報及び前記外部応答情報のいずれを出力するかを判定する判定部と、前記第１情報取得部と前記外部装置との間の通信の品質に関する通信品質情報を取得する通信品質取得部と、を更に備え、前記判定部は、前記通信品質取得部により取得された通信品質情報に基づいて、出力する応答情報を判定し、前記出力制御部は、前記判定部により判定された前記内部応答情報または前記外部応答情報を前記出力部に出力させるものである。

（３）：上記（２）の態様において、前記判定部は、前記通信品質取得部により取得された通信品質情報が第１判定品質以下である場合に、前記内部応答情報を出力すると判定するものである。

（４）：上記の（３）の態様において、前記判定部は、前記通信品質取得部により取得された通信品質情報が第１判定品質を超える場合に、前記外部応答情報を出力すると判定し、前記出力制御部は、前記通信品質取得部により取得された通信品質情報が第２判定品質以下である場合に、前記外部応答情報とともに効果音を前記出力部に出力させるものである。

（５）：上記（１）から（４）のいずれかの態様において、前記出力制御部は、前記効果音を前記内部応答情報に重ねて出力させるものである。

（６）：上記（１）から（５）のいずれかの態様において、車載機器を搭載する車両に搭載され、前記出力制御部は、前記内部応答情報として、前記車載機器に関する情報を出力する際には、前記効果音を出力させないものである。

（７）：この発明の一態様に係る音声対話方法は、音声情報を取得し、外部装置から、前記音声情報に対する外部応答情報を受信して取得し、前記外部装置との間の通信の品質に関する通信品質情報を取得し、特定の音声情報に対する内部応答情報を記憶する記憶部から、前記音声情報に対する内部応答情報を取得し、前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させ、前記内部応答情報を出力させる場合、前記内部応答情報とともに効果音を前記出力部に出力させる音声対話方法である。

（８）：この発明の一態様に係るプログラムは、音声対話装置のコンピュータに、音声情報を取得させ、外部装置から、前記音声情報に対する外部応答情報を受信して取得させ、前記外部装置との間の通信の品質に関する通信品質情報を取得させ、特定の音声情報に対する内部応答情報を記憶する記憶部から、前記音声情報に対する内部応答情報を取得させ、前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させる処理を実行させ、前記内部応答情報を出力させる場合、前記内部応答情報とともに効果音を前記出力部に出力させる処理を実行させるプログラムである。

（１）～（８）によれば、ユーザの要求に対する回答の精度をユーザに知らせることができる。
（２）～（５）によれば、ユーザの要求に対する回答の精度が低いことをユーザに認識させることができる。
（６）によれば、車両機器に関する情報についてはユーザに認識させやすくすることができる。

音声対話装置１００を含むエージェントシステム１の構成図である。音声対話装置１００の構成と、車両Ｍに搭載された機器とを示す図である。エージェントサーバ２００の構成と、音声対話装置１００の構成の一部とを示す図である。音声対話装置１００において実行される処理の流れの一例を示すフローチャートである。音声対話装置１００において実行される処理の流れの一例を示すフローチャートである。表示・操作装置２０の表示及びピーカ３０の出力の一例を示す説明図である。表示・操作装置２０の表示及びピーカ３０の出力の一例を示す説明図である。

以下、図面を参照し、本発明の音声対話装置、音声対話方法、及びプログラムの実施形態について説明する。音声対話装置は、例えば、エージェント機能を備える。エージェント機能とは、例えば、車両Ｍのユーザである乗員と対話をしながら、乗員の発話の中に含まれる要求（コマンド）に基づく各種の情報提供を行ったり、ネットワークサービスを仲介したりする機能である。エージェントは、単数でもよいし、複数種類でもよい。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有するものがあってよい。

エージェント機能は、例えば、乗員の音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理解釈機能）は、車両Ｍの車載通信装置または車両Ｍに持ち込まれた汎用通信端末（携帯端末）と通信可能なエージェントサーバに搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、音声対話装置とエージェントサーバが協働してエージェント機能を実現することを前提とする。また、音声対話装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントと称する。エージェントサーバは、「外部装置」の一例である。

［全体構成］
図１は、音声対話装置１００を含むエージェントシステム１の構成図である。エージェントシステム１は、例えば、音声対話装置１００と、エージェントサーバ２００と、を備える。エージェントサーバ２００は、単数でもよいし、複数でもよい。複数のエージェントサーバ２００が存在する場合には、複数のエージェントサーバ２００は、互いに異なるエージェントシステムの提供者が運営するものである。この場合のエージェントは、互いに異なるエージェントシステムの提供者が運営するものである。

音声対話装置１００は、エージェントサーバ２００を有するエージェントシステムの提供者が提供する。エージェントサーバ２００は、音声対話装置１００におけるエージェント機能部１５０の親サーバである。エージェントシステムの提供者としては、例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯端末の販売者や製造者などが挙げられ、任意の主体（法人、団体、個人等）がエージェントシステムの提供者となり得る。

音声対話装置１００は、ネットワークＮＷを介してエージェントサーバ２００と通信する。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ－Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ５００が接続されている。音声対話装置１００及びエージェントサーバ２００は、いずれもネットワークＮＷを介して各種ウェブサーバ５００からウェブページを取得することができる。

音声対話装置１００は、車両Ｍの乗員と対話を行い、乗員からの音声に基づいて、応答文などの応答情報を生成したり、乗員からの音声についての情報をエージェントサーバ２００に送信し、エージェントサーバ２００から応答文を得たりして、これらの応答文を音声出力や画像表示の形で乗員に提示する。

［車両］
図２は、音声対話装置１００の構成と、車両Ｍに搭載された機器とを示す図である。車両Ｍには、例えば、一以上のマイク１０と、表示・操作装置２０と、スピーカ３０と、ナビゲーション装置４０と、車両機器５０と、車載通信装置６０と、音声対話装置１００とが搭載される。また、汎用通信端末が車室内に持ち込まれ、通信装置として使用される。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイク１０は、車室内で発せられた音声を収集する収音部である。表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。スピーカ３０は、例えば、車室内の互いに異なる複数の位置に配設される。表示・操作装置２０は、音声対話装置１００とナビゲーション装置４０とで共用されてもよい。表示・操作装置２０及びスピーカ３０は、「出力部」の一例である。

ナビゲーション装置４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイク１０、表示・操作装置２０、およびスピーカ３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、乗員によって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、音声対話装置１００は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラと音声対話装置１００は、ハードウェア上は一体に構成される。

車両機器５０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの車両情報装置などを含む。

車載通信装置６０は、例えば、セルラー網やＷｉ－Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。

音声対話装置１００は、例えば、管理部１１０と、エージェント機能部１５０と、を備える。管理部１１０は、例えば、音響処理部１１２と、ＷＵ（Wake Up）判定部１１４と、表示制御部１１６と、音声制御部１１８と、を備える。エージェント機能部１５０は、例えば、音声取得部１５１と、第１情報取得部１５２と、第２情報取得部１５３と、通信品質取得部１５４と、判定部１５５と、出力制御部１５６と、車載機器指令部１５７と、記憶部１６０と、を備える。図２に示す各機能部の構成は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と車載通信装置６０の間に管理部１１０が介在してもよいように、任意に改変することができる。

音声対話装置１００の各構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。エージェント機能部１５０の記憶部１６０は、例えば、ローカル辞書ＤＢ（データベース）１６２、ローカル知識ベースＤＢ１６４、ローカル応答規則ＤＢ１６６を記憶する。記憶部１６０は、音声対話装置１００に含まれる上記の各種記憶装置により実現される。

、
管理部１１０は、ＯＳ（Operating System）やミドルウェアなどのプログラムが実行されることで機能する。管理部１１０の音響処理部１１２は、音声対話装置１００に対して予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音声に対して音響処理を行い、音声ストリームを生成する。

ＷＵ判定部１１４は、音声対話装置１００に対して予め定められているウエイクアップワードを認識する。ＷＵ判定部１１４は、音響処理部１１２において生成された音声ストリームから音声の意味を認識する。まず、ＷＵ判定部１１４は、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を音声情報として検出する。ＷＵ判定部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってもよい。

次に、ＷＵ判定部１１４は、検出した音声区間の音声情報における音声をテキスト化し、文字情報とする。そして、ＷＵ判定部１１４は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合、ＷＵ判定部１１４は、エージェント機能部１５０を起動させる。ＷＵ判定部１１４は、ウエイクアップワードでないと判定した文字情報をエージェント機能部１５０に出力する。

なお、ＷＵ判定部１１４に相当する機能がエージェントサーバ２００に搭載されてもよい。この場合、管理部１１０は、音響処理部１１２によって音響処理が行われた音声ストリームをエージェントサーバ２００に送信し、エージェントサーバ２００がウエイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０が起動する。なお、エージェント機能部１５０は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がＷＵ判定部１１４を備える必要はない。

表示制御部１１６は、エージェント機能部１５０からの指示に応じて表示・操作装置２０に画像を表示させる。表示制御部１１６は、エージェント機能部１５０の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像を表示・操作装置２０に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（乗員）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体（胴体や手足）の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されたりするものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１１８は、エージェント機能部１５０からの指示に応じて、スピーカ３０に音声を出力させる。音声制御部１１８は、複数のスピーカ３０を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。音声制御部１１８は、「出力制御部」の一例である。

音声による応答を含むサービスを提供するための車載用のアプリケーションプログラム（以下、車載エージェントアプリ）が実行されることで、エージェントサーバ２００と協働してエージェントを出現させ、車両の乗員の発話に基づく発話情報に応じて、音声による応答を含むサービスを提供する。エージェント機能部１５０には、車両機器５０を制御する権限が付与されたものであるが、車両機器５０を制御する権限が付与されていないものでもよい。

音声取得部１５１は、管理部１１０のＷＵ判定部１１４により出力される文字情報を取得して認識する。音声取得部１５１は、文字情報の形で音声情報を取得して認識する。音声取得部１５１は、認識した文字情報に対して、記憶部１６０が記憶するローカル辞書ＤＢ１６２を参照しながら意味解釈を行う。ローカル辞書ＤＢ１６２は、同義語や類義語の一覧情報を含んでもよい。文字情報を認識する処理と、意味解釈を行う処理は、段階が明確に分かれるものではなく、意味解釈の結果を受けて、文字認識の認識結果を修正するなど、相互に影響し合って行われてよい。

音声取得部１５１は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。音声取得部１５１は、文字認識の認識結果を、車載通信装置６０を用いて、エージェントサーバ２００に送信する。音声取得部１５１は、情報を送信する送信部または情報を送受信する通信部の一部となる。

第１情報取得部１５２は、車載通信装置６０を用いて、エージェントサーバ２００により送信されるサーバ応答文を受信して取得する。サーバ応答文には、そのサーバ応答文を生成する過程に関する決定過程情報が付加されている。第１情報取得部１５２は、取得したサーバ応答文を判定部１５５に出力し、決定過程情報を通信品質取得部１５４に出力する。第１情報取得部１５２は、情報を受信する受信部または情報を送受信する通信部の一部となる。サーバ応答文の生成及び送信、決定過程情報等については、エージェントサーバ２００の説明の際に説明する。

第２情報取得部１５３は、音声取得部１５１により認識された認識結果に基づいて、ローカル知識ベースＤＢ１６４、ローカル応答規則ＤＢ１６６を参照しながら車両Ｍの乗員に対する応答文を決定して取得する。ローカル知識ベースＤＢ１６４は、物事の関係性を規定した情報である。ローカル応答規則ＤＢ１６６は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

第２情報取得部１５３は、決定した応答文が車両Ｍの乗員に伝わるように、ローカル応答文を生成して取得する。第２情報取得部１５３は、乗員の名前を呼んだり、乗員の話し方に似せた話し方にしたりしたローカル応答文を決定して取得してもよい。第２情報取得部１５３は、ローカル応答文を判定部１５５に出力する。

通信品質取得部１５４は、車載通信装置６０の通信品質情報としての通信品質を取得する。車載通信装置６０の通信品質は、例えば、車両Ｍの送受信状態、エージェントサーバ２００の送受信状態、通信制限の有無・受信成否・タイムアウト等の情報に基づく品質である。通信品質取得部１５４が取得する通信品質は、例えば、車載通信装置６０の受信品質でもよいし、エージェント機能部１５０におけるエージェントサーバ２００により送信される情報の受信品質でもよい。または、車載通信装置６０とエージェントサーバ２００の間における通信の品質、例えばエージェントサーバ２００の送信品質でもよい。さらに、通信品質取得部１５４は、第１情報取得部１５２が取得したサーバ応答文に付加された決定過程情報を取得し、判定部１５５に出力する。

判定部１５５は、第２情報取得部１５３により出力されたローカル応答文が即答応答文であると判定した場合に、即答応答文を出力制御部１５６に出力する。即答応答文とは、内容が比較的単純であり、音声取得部１５１により認識された認識結果に対する応答内容として、ローカル応答文とサーバ応答文に差がつかないまたはつきにくい認識結果に対する応答文である。即答応答文としては、例えば、車両機器の操作に関するに関する認識結果、例えば、「窓を開けて」という認識結果に対して、「窓を開けます」といった車両機器の操作に関する指令応答文が挙げられる。あるいは、即答応答文としては、例えば、「今何時？」といった単純な問いかけの認識結果に対して、「９時１５分です」といった単純な応答文が挙げられる。即答応答文以外の応答文としては、例えば、天気情報など、エージェントサーバ２００に記憶された情報のみでは生成することが困難である応答文や、地名、場所名、曲名など無数に表現があるために、意図を理解するためには膨大な辞書データベースが必要になる応答文がある。

判定部１５５は、第２情報取得部１５３により出力された応答文が車両機器の操作に関する指令応答文である場合に、指令応答文を出力制御部１５６に出力し、指令情報を車載機器指令部１５７に出力する。指令応答文は、車両機器の操作に関する指令文と認識した認識結果に応答する応答文である。指令情報は、指令応答文に対応する操作を車両機器に行わせる情報である。指令情報は、例えば、指令応答文が「窓を開けます」である場合に、車両の窓を開けさせるための情報である。

判定部１５５は、第２情報取得部１５３により出力された応答文が即答応答文でない場合に、通信品質取得部１５４が取得した通信品質に基づいて、音声取得部１５１が取得した認識結果に対する応答文を、第１情報取得部１５２により出力されたサーバ応答文とするか第２情報取得部１５３により出力されたローカル応答文とするかを判定する。判定部１５５は、通信品質取得部１５４が取得した通信品質が第１判定品質を超える場合に、音声取得部１５１が取得した認識結果に対する応答文を、第１情報取得部１５２により出力されたサーバ応答文とする。判定部１５５は、通信品質取得部１５４が取得した通信品質が第１判定品質以下の場合に、音声取得部１５１が取得した認識結果に対する応答文を、第２情報取得部１５３により出力されたローカル応答文とする。通信品質が第１判定品質以下である場合の例としては、第１情報取得部１５３がサーバ応答文を取得する前に、サーバ応答文の取得までに設定された待機時間が所定の時間を超えた場合、車両Ｍまたはエージェントサーバ２００の送受信状態不良または通信制限があり、サーバ応答文を受信できない場合、サーバ応答文の受信はできたが、受信したサーバ応答文が不完全なものであった場合等がある。

判定部１５５は、通信品質取得部１５４が取得した通信品質が第１判定品質を超え、応答文をサーバ応答文とすると判定した場合、通信品質取得部１５４により出力される決定過程情報に基づいて、通信品質が第２判定品質以下であるか否かを判定する。通信品質が第２判定品質以下である場合の例としては、例えば、エージェントサーバ２００におけるサーバ応答文の生成過程において、十分な情報が得られなかった場合などがある。判定部１５５は、通信品質が第２判定品質以下であると判定した場合に、出力制御部１５６にノイズ情報を出力させる。

判定部１５５は、認識結果に対する応答文をサーバ応答文とローカル応答文のいずれか一方としてもよいし両方としてもよい。判定部１５５は、認識結果に対する応答文をサーバ応答文とローカル応答文の両方とする場合、サーバ応答文とローカル応答文のいずれを先に出力するかを適宜の基準で判定してもよい。

出力制御部１５６は、認識結果に対する応答文として判定部１５５により判定され、スピーカ３０により出力させるための応答文を管理部１１０に出力する。例えば、判定部１５５によりローカル応答文を出力させると判定された場合に、出力制御部１５６は、ローカル応答文を内部応答情報として管理部１１０に出力する。出力制御部１５６により内部応答情報を出力された管理部１１０は、音声制御部１１８を用いて、ローカル応答文を出力させるようにスピーカ３０を制御する。また、判定部１５５によりサーバ応答文を出力させると判定された場合に、出力制御部１５６は、サーバ応答文を外部応答情報として管理部１１０に出力する。出力制御部１５６により外部応答情報を出力された管理部１１０は、サーバ応答文を出力させるように、表示制御部１１６を用いて表示・操作装置２０を制御したり、音声制御部１１８を用いてスピーカ３０を制御したりする。このように、出力制御部１５６は、判定部１５５により判定されたローカル応答文またはサーバ応答文を表示・操作装置２０に表示させ、スピーカ３０に出力させる。

出力制御部１５６は、ローカル応答文を出力させるための内部応答情報を管理部１１０に出力する際に、スピーカ３０に効果音としてのノイズ（ノイズ音）を出力させるためのノイズ情報を合わせて出力する。出力制御部１５６は、判定部１５５に、通信品質が第２判定品質以下であると判定された場合には、サーバ応答文を出力させるための外部応答情報を管理部１１０に出力する際にスピーカ３０に効果音としてのノイズを出力させるためのノイズ情報を合わせて出力する。出力制御部１５６により内部応答情報または外部応答情報とともにノイズ情報を出力された管理部１１０の音声制御部１１８は、ノイズを重畳させて（重ねて）ローカル応答文またはサーバ応答文を出力させるようにスピーカ３０を制御する。出力制御部１５６は、ノイズを重畳させてローカル応答文またはサーバ応答文を出力させる代わりに、ローカル応答文またはサーバ応答文の前または後にノイズなどの効果音を出力させるための情報を出力するようにしてもよい。

出力制御部１５６は、第２情報取得部１５３により即答応答文が出力された場合に、即答応答文を内部応答情報として管理部１１０に出力する。出力制御部１５６により内部応答情報を出力された管理部１１０は、音声制御部１１８を用いて、指令応答文を出力させるようにスピーカ３０を制御する。

車載機器指令部１５７は、第２情報取得部１５３により指令情報が出力された場合に、指令情報に基づいて車両機器５０を制御する。ここでの車両機器５０の制御は、例えば、ドアの開閉、窓の開閉、シート位置の制御等がある。車両機器５０の制御は、制御対象を特定して行うものでもよく、例えば、運転席のドアを開閉させるものでもよい。

［エージェントサーバ］
図３は、エージェントサーバ２００の構成と、音声対話装置１００の構成の一部とを示す図である。以下、エージェントサーバ２００の構成と共にエージェント機能部１５０等の動作について説明する。ここでは、音声対話装置１００からネットワークＮＷまでの物理的な通信についての説明を省略する。

エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、エージェントサーバ２００に含まれる上記の各種記憶装置により実現される。記憶部２５０には、パーソナルプロファイル２５２、辞書ＤＢ２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。パーソナルプロファイル２５２、辞書ＤＢ２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムは、車載エージェントアプリに対応するものである。なお、パーソナルプロファイル２５２は、複数のユーザの個々のものであるが、エージェント機能部１５０には、車両Ｍのユーザのパーソナルプロファイルに相当する情報が記憶される。また、エージェント機能部１５０の記憶部１６０に記憶されたローカル辞書ＤＢ１６２、ローカル知識ベースＤＢ１６４、ローカル応答規則１６６ＤＢは、辞書ＤＢ２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８より簡易なものである。このため、エージェント機能部１５０で生成できるローカル応答文は、エージェントサーバ２００で生成されるサーバ応答文よりも簡易であり、いわばユーザの要求に対する回答としての精度の低い応答文となる可能性が高い。

音声対話装置１００において、エージェント機能部１５０は、ローカル処理（エージェントサーバ２００を介さない処理）が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、音声対話装置１００が備える記憶部１６０を参照することで回答可能な音声コマンドであったり、車両機器５０を制御する音声コマンド（例えば、空調装置をオンにするコマンドなど）であったりする。従って、エージェント機能部１５０は、エージェントサーバ２００が備える機能の一部を有する。

自然言語処理部２２２は、エージェント機能部１５０により送信された文字情報に対して辞書ＤＢ２５４を参照しながら意味解釈を行う。辞書ＤＢ２５４は、文字情報に対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。なお、エージェントサーバ２００に音声認識部を設け、エージェント機能部１５０からは音声ストリームを送信し、音声認識部が音声認識を行ってテキスト化して自然言語処理部２２２における処理を行ってもよい。この場合、音声認識部の処理と、自然言語処理部２２２の処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、音声取得部１５１と同様にして、得られた認識結果を、標準文字情報に置き換えたコマンドを生成する。自然言語処理部２２２や音声取得部１５１は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２の処理結果（コマンド）に基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍの乗員に対する応答文を決定する。パーソナルプロファイル２５２は、乗員ごとに保存されている乗員の個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

対話管理部２２４は、コマンドが、ネットワークＮＷを介して検索可能な情報を要求するものである場合、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ５００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

対話管理部２２４は、応答文を決定するまでの決定過程を示す決定過程情報を生成する。対話管理部２２４は、応答文を決定するまでの過程で、サーバ応答文を決定するための情報を十分に得られたかを否かを判定する。例えば、エージェントサーバ２００が各種ウェブサーバ５００との通信ができず、各種ウェブサーバ５００から得られるべき情報を得ることができなかった場合には、十分な情報が得られなかったと判定し、サーバ応答文の生成過程で十分な情報が得られなかったことを示す決定過程情報を生成する。

応答文生成部２２８は、対話管理部２２４により決定された応答文が車両Ｍの乗員に伝わるように、サーバ応答文を生成し、音声対話装置１００に送信する。応答文生成部２２８は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にしたりしたサーバ応答文を生成してもよい。

エージェント機能部１５０は、ローカル応答文を生成したりサーバ応答文を取得したりすると、音声合成を行って音声を出力するように音声制御部１１８に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１６に指示する。このようにして、仮想的に出現したエージェントが車両Ｍの乗員に応答するエージェント機能が実現される。

［音声対話装置１００における処理］
次に、音声対話装置１００における処理の一例について説明する。音声対話装置１００は、車両Ｍの乗員が対話を開始した際にエージェントサーバ２００と通信を開始する。エージェントサーバ２００は、回答を生成して音声対話装置１００に提供する。音声対話装置１００は、エージェントサーバ２００から得られた回答を、音声出力や画像表示の形で乗員に提示する。

図４～図６は、音声対話装置１００において実行される処理の流れの一例を示すフローチャートである。音声対話装置１００において、ＷＵ判定部１１４は、乗員が発声した音声の音声区間を検出し、検出した音声区間をテキスト化した文字情報からウエイクアップワード（ＷＵワード）を取得したか否かを判定する（ステップＳ１０１）。

ウエイクアップワードを取得していないと判定した場合、ＷＵ判定部１１４は、ステップＳ１０１の処理を繰り返す。ＷＵ判定部１１４がウエイクアップワードを取得したと判定した場合、音声取得部１５１は、音声情報を取得したか否かを判定する（ステップＳ１０３）。音声情報を取得していないと判定した場合、音声取得部１５１は、ステップＳ１０３の処理を繰り返す。

音声情報を取得したと判定した場合、音声取得部１５１は、文字情報を認識し、認識結果としての文字情報をエージェントサーバ２００に送信する（ステップＳ１０５）。続いて、第２情報取得部１５３は、音声取得部１５１が認識した文字情報に基づいて、ローカル応答文を生成して取得する（ステップＳ１０７）。

続いて、判定部１５５は、第２情報取得部１５３が取得したローカル応答文が即答応答文であるか否かを判定する（ステップＳ１０９）。ローカル応答文が即答応答文でないと判定した場合、判定部１５５は、応答文を決定する処理を行う（ステップＳ１１１）。ステップＳ１１１における応答文を決定する処理については後に説明する。

続いて、出力制御部１５６は、判定部１５５が判定したローカル応答文またはサーバ応答文を応答文として管理部１１０に出力し（ステップＳ１１３）、応答文を表示・操作装置２０に表示させ、スピーカ３０に出力させる。また、判定部１５５がノイズ情報を出力させると判定した場合には、出力制御部１５６は、ローカル応答文とともにノイズ情報を管理部１１０に出力し、応答文を表示・操作装置２０に表示させ、応答文にノイズを重畳させてスピーカ３０に出力させる。こうして、音声対話装置１００は、図４に示す処理を終了する。

ステップＳ１０９において、判定部１５５は、取得したローカル応答文が即答応答文であると判定した場合、ローカル応答文を応答文とする（ステップＳ１１５）。続いて、また、第２情報取得部１５３は、即答応答文が指令応答文であるか否かを判定（ステップＳ１１７）。即答応答文が指令応答文であると判定した場合、第２情報取得部１５３は、指令情報を車載機器指令部１５７に出力する（ステップＳ１１９）。車載機器指令部１５７は、第２情報取得部１５３により出力された指令情報に基づいて車両機器５０を制御する。即答応答文が指令応答文でないと判定した場合、第２情報取得部１５３は、ステップＳ１１９の処理をスキップする。その後、出力制御部１５６は、ローカル応答文（即答応答文）を応答文として管理部１１０に出力し（ステップＳ１１３）、応答文を表示・操作装置２０に表示させ、スピーカ３０に出力させる。こうして、音声対話装置１００は、図４に示す処理を終了する。

続いて、ステップＳ１１１に示す処理について、図５を参照して説明する。ステップＳ１１１に示す処理では、図５に示すように、第１情報取得部１５２は、エージェントサーバ２００により送信されるサーバ応答文を受信して取得したか否かを判定する（ステップＳ２０１）。

エージェントサーバ２００により送信されるサーバ応答文を取得していないと判定した場合、第１情報取得部１５２は、認識結果を送信してから、判定時間を経過したか否かを判定する（ステップＳ２０３）。判定時間を経過していないと判定した場合、第１情報取得部１５２は、ステップＳ２０１による処理を繰り返す。

判定時間を経過したと判定した場合、第１情報取得部１５２は、通信品質が第１判定品質以下であると判定し、第２情報取得部１５３により取得したローカル応答文を応答文として判定するとともに、出力制御部１５６にノイズ情報を出力させると判定する（ステップＳ２０５）。こうして、音声対話装置１００は、図５に示す処理を終了し、図４に示すステップＳ１１３の処理に進む。

ステップＳ２０１において、エージェントサーバ２００により送信されるサーバ応答文を取得していないと第１情報取得部１５２が判定した場合、通信品質取得部１５４は、車載通信装置６０の通信品質を取得する（ステップＳ２０７）。続いて、判定部１５５は、通信品質取得部１５４により出力される決定過程情報に基づいて、通信品質取得部１５４が取得した通信品質が第２判定品質以下であるか否かを判定する（ステップＳ２０９）。

通信品質取得部１５４が取得した通信品質が第２判定品質以下であると判定した場合、判定部１５５は、第２情報取得部１５３により取得したサーバ応答文を応答文として判定するとともに、出力制御部１５６にノイズ情報を出力させると判定する（ステップＳ２１１）。こうして、音声対話装置１００は、図５に示す処理を終了し、図４に示すステップＳ１１３の処理に進む。

通信品質取得部１５４が取得した通信品質が第２判定品質以下でない（第２判定品質を超える）と判定した場合、判定部１５５は、第１情報取得部１５２が取得したサーバ応答文を応答文として判定する（ステップＳ２１３）。こうして、音声対話装置１００は、図５に示す処理を終了し、図４に示すステップＳ１１３の処理に進む。

実施形態の音声対話装置１００において、ローカル応答文は、音声対話装置１００に記憶されたローカル辞書ＤＢ１６２、ローカル知識ベースＤＢ１６４、ローカル応答規則ＤＢ１６６を用いて生成された応答文であり、エージェントサーバ２００で生成されたサーバ応答文よりもユーザの要求に対する回答としての精度が低い可能性が高い。

例えば、図６及び図７に示すように、ユーザＵが対話による要求として、「明日の天気は」と問いかけたとする。この問いかけに対して、応答文がサーバ応答文である場合には、例えば図６に示すように、表示・操作装置２０には、エージェント画像Ｅとともに「午前中は快晴、午後から曇、夕方にはにわか雨があるでしょう」のテキスト文字が表示され、スピーカ３０からは、表示・操作装置２０に表示されたテキスト文字に対応する音声が出力される。

これに対して、応答文がローカル応答文である場合には、例えば図７に示すように、表示・操作装置２０には、エージェント画像Ｅとともに「曇りです」のテキスト文字が表示され、スピーカ３０からは、表示・操作装置２０に表示されたテキスト文字に対応する音声が出力される。このように、応答文がローカル応答文である場合の応答文は、応答文がサーバ応答文である場合よりも充実度が低く、ユーザの要求に対する回答としての精度が低くなる。

音声対話装置１００では、スピーカ３０により出力されるローカル応答文を出力する際には、ノイズを重畳させる。具体的に、図６に示すように、サーバ応答文を回答とする場合には、ノイズを付与させることなく音声を出力させるのに対して、図７に示すローカル応答文を回答する場合には、「ザー」「ザー」というノイズを付与させてスピーカ３０から音声を出力させる。また、応答文がサーバ応答文である場合であっても、例えばエージェントサーバ２００がサーバ応答文の生成過程で十分な情報を得られなかった場合にも同様に、「ザー」「ザー」というノイズを付与させてスピーカ３０から音声を出力させる。このように、音声対話装置１００では、音声対話システム１の最大限の能力を活用して決定した応答文を出力する際には、ノイズを付さず、再度の問いかけを行うなどして応答文について改善の余地がある場合には、ノイズを付してスピーカ３０から音声を出力させる。このため、ローカル応答文を出力した場合に、スピーカ３０により出力された応答文は、ユーザの要求に対する回答としての精度の高い応答文ではなく、例えば再度の問いかけを行うことでさらに良い応答文を得ることができる余地があることをユーザに認識させることができる。こうして、音声対話装置１００は、ユーザの要求に対する回答としての精度をユーザに知らせることができる。

上記の実施形態では、ローカル応答文にノイズを付与するか否かについて、応答文の内容とは無関係に判定を行っているが、応答文の内容を加味してノイズを付与するか否かを判定してもよい。例えば、応答文の中に「わかりません」「できません」などの否定的表現が含まれる場合に、応答文にノイズを付与してもよいし、ローカル応答文の中にこのような否定的表現が含まれる場合に、ローカル応答文にノイズを付与してもよい。また、応答文にノイズを付与する際には、応答文にノイズを重畳させるほか、応答文の前後にノイズ音を含ませても。また、効果音としてノイズを付与する代わりに、チャイム音を出力させるなどとしてもよい。また、音声対話装置１００は、エージェント画像が出現することなく、ユーザとの対話が行われるものでもよい。また、効果音を出力させる際には、図７に示すエージェント画像Ｅの顔を曇らせて表示したり、テキスト文字のフォントを暗い印象のフォントにしたりするなど、ネガティブな印象をユーザに与える表示を行うなどしてもよい。

上記の実施形態では、音声対話装置１００は、車両Ｍに搭載されているが、車両Ｍに搭載されたもの以外でもよく、例えば、音声対話装置１００は、スマートフォンやスマートスピーカなどに搭載されていてもよい。また、上記の実施形態では、音声対話装置１００は、ローカル応答文にノイズを付与してローカル応答文とともにノイズを出力させているが、応答文を出力させるとき以外のときにノイズを出力させるようにしてもよい。例えば、音声対話装置１００は、システムの処理期間中や音声認識を待機している間にノイズを出力させてもよい。ノイズを出力させることで、ユーザの要求に対する回答の精度が低くなることをユーザに想起させることができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム
２０…表示・操作装置
３０…スピーカ
５０…車両機器
６０…車載通信装置
１００…音声対話装置
１５０…エージェント機能部
１５１…音声取得部
１５２…第１情報取得部
１５３…第２情報取得部
１５４…通信品質取得部
１５５…判定部
１５６…出力制御部
１５７…車載機器指令部
２００…エージェントサーバ
Ｍ…車両

Claims

音声情報を取得する音声取得部と、
外部装置から、前記音声取得部により取得された前記音声情報に対する外部応答情報を受信して取得する第１情報取得部と、
特定の音声情報に対する内部応答情報を記憶する記憶部と、
前記記憶部から、前記音声取得部により取得された前記音声情報に対する回答としての精度が前記外部応答情報よりも低い内部応答情報を取得する第２情報取得部と、
前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させる出力制御部と、
を備え、
前記出力制御部は、前記内部応答情報を出力させる場合、前記内部応答情報とともにノイズ音を前記出力部に出力させる、
音声対話装置。
前記出力制御部は、前記外部応答情報を出力させる場合において、前記外部応答情報の生成過程で十分な情報が得られなかった場合、前記外部応答情報ととともにノイズ音を前記出力部に出力させる、
請求項１に記載の音声対話装置。
前記出力制御部は、前記内部応答情報を出力させる場合において、前記内部応答情報に否定的表現が含まれる場合に、前記内部応答情報とともにノイズ音を前記出力部に出力させる、
請求項１または２に記載の音声対話装置。
前記出力制御部は、前記ノイズ音を前記内部応答情報に重ねて出力させる、請求項１から３のうちいずれか１項に記載の音声対話装置。
前記出力制御部は、前記外部応答情報または前記内部応答情報の前もしくは後のうち少なくともいずれかで前記ノイズ音を前記出力部に出力させる、
請求項１から３のうちいずれか１項に記載の音声対話装置。
前記内部応答情報及び前記外部応答情報のいずれを出力するかを判定する判定部と、
前記第１情報取得部と前記外部装置との間の通信の品質に関する通信品質情報を取得する通信品質取得部と、を更に備え、
前記判定部は、前記通信品質取得部により取得された通信品質情報に基づいて、出力する応答情報を判定し、
前記出力制御部は、前記判定部により判定された前記内部応答情報または前記外部応答情報を前記出力部に出力させる、
請求項１から５のうちいずれか１項に記載の音声対話装置。
前記判定部は、前記通信品質取得部により取得された通信品質情報が第１判定品質以下である場合に、前記内部応答情報を出力すると判定する、
請求項６に記載の音声対話装置。
前記判定部は、前記通信品質取得部により取得された通信品質情報が第１判定品質を超える場合に、前記外部応答情報を出力すると判定し、
前記出力制御部は、前記通信品質取得部により取得された通信品質情報が第２判定品質以下であると前記判定部により判定された場合に、前記外部応答情報とともに効果音を前記出力部に出力させる、
請求項７に記載の音声対話装置。
車載機器を搭載する車両に搭載され、
前記出力制御部は、前記内部応答情報として、前記車載機器に関する情報を出力する際には、前記ノイズ音を出力させない、
請求項１から８のうちいずれか１項に記載の音声対話装置。
音声対話装置のコンピュータが、
音声情報を取得し、
外部装置から、前記音声情報に対する外部応答情報を受信して取得し、
前記外部装置との間の通信の品質に関する通信品質情報を取得し、
特定の音声情報に対する内部応答情報を記憶する記憶部から、前記音声情報に対する回答としての精度が前記外部応答情報よりも低い内部応答情報を取得し、
前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させ、
前記内部応答情報を出力させる場合、前記内部応答情報とともにノイズ音を前記出力部に出力させる、
音声対話方法。
音声対話装置のコンピュータに、
音声情報を取得させ、
外部装置から、前記音声情報に対する外部応答情報を受信して取得させ、
前記外部装置との間の通信の品質に関する通信品質情報を取得させ、
特定の音声情報に対する内部応答情報を記憶する記憶部から、前記音声情報に対する回答としての精度が前記外部応答情報よりも低い内部応答情報を取得させ、
前記外部応答情報及び前記内部応答情報のうち少なくとも一方を出力部に出力させる処理を実行させ、
前記内部応答情報を出力させる場合、前記内部応答情報とともにノイズ音を前記出力部に出力させる処理を実行させる、
プログラム。