JP2020160285A

JP2020160285A - エージェント装置、情報提供方法、及びプログラム

Info

Publication number: JP2020160285A
Application number: JP2019059884A
Authority: JP
Inventors: 善史我妻; Yoshifumi Wagatsuma; 賢吾内木; Kengo Uchiki; 裕介大井; Yusuke Oi; 裕貴中山; Yuki Nakayama; 俊克倉持; Toshikatsu Kuramochi
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-01

Abstract

【課題】利用者をより満足させることができる。【解決手段】エージェント装置は、利用者の発話の音声を示す第１データを取得する取得部と、前記第１データから、前記第１データのデータ量を少なくした第２データを生成する生成部と、前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する提供部と、を備える。【選択図】図２

Description

本発明は、エージェント装置、情報提供方法、及びプログラムに関する。

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている（例えば、特許文献１参照）。

特開２００６−３３５２３１号公報

近年では、エージェント機能を車両に搭載することについて実用化が進められている。エージェント機能を実現するための一つの手法として、車内でユーザが発話した音声データなどをサーバに集約し、サーバに音声認識処理や自然言語処理といった処理負荷の大きい処理を行わせる手法がある。しかしながら、従来の技術では、車両からサーバへと頻繁にデータが送信されたり、一つ一つのデータの容量が大きかったりするため、データの通信速度に制限が設けられたり、データ通信に係る利用料が増加したりする傾向にあった。この結果、エージェント機能によって提供されるサービスを享受する利用者を十分に満足させることができない場合があった。

本発明は、このような事情を考慮してなされたものであり、利用者をより満足させることができるエージェント装置、情報提供方法、及びプログラムを提供することを目的の一つとする。

本発明に係るエージェント装置、情報提供方法、及びプログラムは、以下の構成を採用した。

（１）本発明の一態様は、利用者の発話の音声を示す第１データを取得する取得部と、前記第１データから、前記第１データのデータ量を少なくした第２データを生成する生成部と、前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する提供部と、を備えるエージェント装置である。

（２）の態様は、上記（１）の態様のエージェント装置において、前記利用者が、移動体を利用する利用者であり、前記移動体に搭載され、かつ前記移動体の外部に存在する一以上の他装置と通信する通信部と、前記通信部を用いて、前記第２データを少なくとも前記一以上の他装置のいずれかに送信する通信制御部と、を備え、前記提供部が、前記第２データが送信された前記他装置から前記通信部が前記発話の意味の解釈結果を示す第３データを受信した場合、前記第３データに基づいて、前記サービスを提供するものである。

（３）の態様は、上記（１）または（２）の態様のエージェント装置において、前記第１データに対して音声認識を行い、前記第１データが示す発話の中に、予め決められたキーワードが含まれるか否かを判定する判定部を更に備え、前記生成部が、前記判定部の判定結果に応じて、前記第２データを生成するするものである。

（４）の態様は、上記（３）の態様のエージェント装置において、前記判定部が、前記キーワードとして、前記第１データが示す発話の中にフィラーが含まれるか否かを判定し、前記生成部が、前記第１データが示す発話の中に前記フィラーが含まれると前記判定部が判定した場合、前記第１データから前記フィラーを除いた前記第２データを生成するものである。

（５）の態様は、上記（３）または（４）の態様のエージェント装置において、前記生成部が、前記第１データが示す発話において、第１発話が前記キーワードの前に出現し、第２発話が前記キーワードの後に出現する場合、前記キーワードを介さずに前記第１発話と前記第２発話とを繋げたデータを、前記第２データとして生成するものである。

（６）の態様は、上記（２）の態様のエージェント装置において、前記第１データまたは前記第２データに対して自然言語処理を行い、前記第１データまたは前記第２データが示す発話の意味を解釈する自然言語処理部を更に備え、前記通信制御部が、前記自然言語処理部によって解釈された意味に応じて、前記第２データを前記他装置に送信せず、前記提供部が、前記自然言語処理部によって解釈された意味に応じた処理を、前記サービスとして行うものである。

（７）本発明の他の態様は、コンピュータが、利用者の発話の音声を示す第１データを取得し、前記第１データから、前記第１データのデータ量を少なくした第２データを生成し、前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する情報提供方法である。

（８）本発明の他の態様は、コンピュータに、利用者の発話の音声を示す第１データを取得する処理と、前記第１データから、前記第１データのデータ量を少なくした第２データを生成する処理と、前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する処理と、を実行させるためのプログラムである。

上記のいずれかの態様によれば、利用者をより満足させることができる。

第１実施形態に係るエージェントシステム１の構成図である。第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。車内の表示・操作装置２０の配置の一例を示す図である。車内のスピーカユニット３０の配置の一例を示す図である。音像が定位する位置が定まる原理について説明するための図である。エージェントサーバ２００の構成と、エージェント装置１００の一部の構成とを示す図である。第１実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。圧縮データの生成方法を模式的に説明するための図である。圧縮データの生成方法を模式的に説明するための図である。圧縮データの生成方法を模式的に説明するための図である。第１実施形態に係るエージェントサーバ２００による一連の処理の流れを示すフローチャートである。第２実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。第２実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。

以下、図面を参照し、本発明のエージェント装置、情報提供方法、及びプログラムの実施形態について説明する。

＜第１実施形態＞
エージェント装置は、エージェントシステムの一部または全部を実現する装置である。エージェント装置は、移動体に搭載される。移動体は、例えば、二輪や三輪、四輪等の車両である。なお、エージェント装置が搭載される移動体は、車両に限られず、例えば、旅客機や飛行船などの航空機や、旅客船などの船舶といった他の移動体であってもよい。以下、一例として、移動体が車両であるものとし、更に、エージェント装置が搭載される車両を、「車両Ｍ」と称して説明する。

エージェント装置は、複数種類のエージェント機能を備える。例えば、エージェント機能は、ユーザと対話をしながら、ユーザの発話の中に含まれる要求（コマンド）に基づいて、各種情報をユーザに提供したり、ネットワークサービスを仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント装置が備える複数のエージェント機能の中には、車両Ｍに搭載された車載機器（例えば運転制御や車体制御に関わる機器）の制御等を行う機能を有する機能が含まれる。

エージェント機能は、例えば、ユーザの音声を認識する音声認識機能（音声をテキスト化する機能）に加え、自然言語処理機能（テキストの構造や意味を理解する機能）、対話管理機能、ネットワークを介して他装置のデータベースを検索し、或いは自装置のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、ＡＩ（Artificial Intelligence）技術によって実現されてよい。また、これらの機能を行うための構成の一部（特に、音声認識機能や自然言語処理機能）は、エージェントサーバ（外部装置）に搭載されてもよい。エージェントサーバは、例えば、車両Ｍに搭載された通信装置と通信したり、車両Ｍ内に持ち込まれた端末装置と通信したりする。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体（サービス・エンティティ）をエージェントＡＧと称する。エージェントＡＧは、音声アシスタントとも呼ばれる。

＜システムの全体構成＞
図１は、第１実施形態に係るエージェントシステム１の構成図である。エージェントシステム１は、例えば、エージェント装置１００と、複数のエージェントサーバ２００−１、２００−２、２００−３、…とを備える。符号の末尾のハイフン以下の数字は、エージェントＡＧを区別するための識別子であるものとする。いずれのエージェントサーバであるのかを区別しない場合、エージェントサーバ２００と総称する場合がある。図１では３つのエージェントサーバ２００を示しているが、エージェントサーバ２００の数は２つであってもよいし、４つ以上であってもよい。以下、符号「２００−１」が付されるエージェントサーバを、「第１エージェントサーバ」と称し、符号「２００−２」が付されるエージェントサーバを、「第２エージェントサーバ」と称し、符号「２００−３」が付されるエージェントサーバを、「第３エージェントサーバ」と称して説明する。これらのエージェントサーバ２００は、互いに異なる事業者によって運営される。例えば、自動車メーカー、ネットワークサービス事業者、電子商取引事業者、携帯電話の販売事業者や製造事業者などが、それぞれのエージェントサーバ２００を運営および管理してよい。したがって、本実施形態におけるエージェントＡＧは、任意の主体（法人、団体、個人等）によって提供される。エージェントサーバは、「他装置」の一例である。

エージェントシステム１に含まれる各装置はネットワークＮＷを介して接続される。ネットワークＮＷは、例えば、インターネット、セルラー網、Ｗｉ−Ｆｉ網、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、公衆回線、電話回線、無線基地局などのうち一部または全部を含む。ネットワークＮＷには、各種ウェブサーバ３００が接続されており、エージェントサーバ２００、またはエージェント装置１００は、ネットワークＮＷを介して各種ウェブサーバ３００からウェブページを取得することができる。

第１エージェントサーバ２００−１は、第１事業者によって運営および管理されるサーバである。第１事業者は、例えば、自動車メーカーである。例えば、第１エージェントサーバ２００−１は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００と通信したりする。第１エージェントサーバ２００−１は、例えば、エージェント装置１００に、第１事業者独自のエージェント（以下、第１エージェントＡＧ１と称する）をサービスとして提供させる。

第２エージェントサーバ２００−２は、第２事業者によって運営および管理されるサーバである。第２事業者は、例えば、ショッピングサイトなどを提供するネットワークサービス事業者である。例えば、第２エージェントサーバ２００−２は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００と通信したりする。第２エージェントサーバ２００−２は、例えば、エージェント装置１００に、第２事業者独自のエージェント（以下、第２エージェントＡＧ２と称する）をサービスとして提供させる。

第３エージェントサーバ２００−３は、第３事業者によって運営および管理されるサーバである。第３事業者は、例えば、自動車メーカーや、ネットワークサービス事業者、その他事業者であってよい。例えば、第３エージェントサーバ２００−３は、ネットワークＮＷを介して、他のエージェントサーバ２００と通信したり、エージェント装置１００と通信したりする。第３エージェントサーバ２００−３は、例えば、エージェント装置１００に、第３事業者独自のエージェント（以下、第３エージェントＡＧ３と称する）をサービスとして提供させる。

エージェント装置１００は、車両Ｍに乗車したユーザと対話を行い、ユーザから得られた質問などをエージェントサーバ２００に送信し、エージェントサーバ２００から得られた回答を、音声として出力したり、画像として表示したりする。

［車両の構成］
図２は、第１実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。車両Ｍには、例えば、一以上のマイクロフォン１０と、表示・操作装置２０と、スピーカユニット３０と、ナビゲーション装置４０と、車両機器５０と、車載通信装置６０と、乗員認識装置８０と、エージェント装置１００とが搭載される。これらの装置は、ＣＡＮ（Controller Area Network）通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図２に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

マイクロフォン１０は、車両Ｍの室内の音声を収音する音声入力装置である。マイクロフォン１０は、車内のユーザの発話音声やその他の環境音を収音すると、その収音した音声を示す音声データ（音響データともいう）をエージェント装置１００に出力する。

表示・操作装置２０は、画像を表示すると共に、入力操作を受付可能な装置（或いは装置群）である。表示・操作装置２０は、例えば、タッチパネルとして構成されたディスプレイを含む。表示・操作装置２０は、更に、ＨＵＤ（Head Up Display）や機械式の入力装置を含んでもよい。表示・操作装置２０は、エージェント装置１００とナビゲーション装置４０とで共用されてもよい。これらの詳細については後述する。

スピーカユニット３０は、車両Ｍの室内に音声を出力する複数のスピーカを備える。各スピーカは、例えば、車内の互いに異なる位置に配設される。スピーカユニット３０は、エージェント装置１００の指示に応じて音声を出力する。

ナビゲーション装置４０は、ナビＨＭＩ（Human machine Interface）と、ＧＰＳ（Global Positioning System）などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置（ナビゲーションコントローラ）とを備える。マイクロフォン１０、表示・操作装置２０、およびスピーカユニット３０のうち一部または全部がナビＨＭＩとして用いられてもよい。ナビゲーション装置４０は、位置測位装置によって特定された車両Ｍの位置から、ユーザによって入力された目的地まで移動するための経路（ナビ経路）を探索し、経路に沿って車両Ｍが走行できるように、ナビＨＭＩを用いて案内情報を出力する。経路探索機能は、ネットワークＮＷを介してアクセス可能なナビゲーションサーバにあってもよい。この場合、ナビゲーション装置４０は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置１００は、ナビゲーションコントローラを基盤として構築されてもよく、この場合、ナビゲーションコントローラとエージェント装置１００は、一つのハードウェア上で一体に構成される。

車両機器５０は、例えば、エンジンや走行用モータなどの駆動力出力装置、エンジンの始動モータ（スターター）、ドアロック装置、ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置、シート、シート位置の制御装置、ルームミラー及びその角度位置制御装置、車両内外の照明装置及びその制御装置、ワイパーやデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置、走行距離やタイヤの空気圧の情報や燃料の残量情報などの情報装置、空調装置、オーディオ装置、ドライブレコーダ、セットトップボックスなどを含む。

車載通信装置６０は、例えば、セルラー網やＷｉ−Ｆｉ網を利用してネットワークＮＷにアクセス可能な無線通信装置である。より具体的には、車載通信装置６０は、テレマティクスコントロールユニット（ＴＣＵ）である。車載通信装置６０は、「通信部」の一例である。

乗員認識装置８０は、例えば、着座センサ、車室内カメラ、画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサ、シートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたＣＣＤ（Charge Coupled Device）カメラやＣＭＯＳ（Complementary Metal Oxide Semiconductor）カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。

図３は、車内の表示・操作装置２０の配置の一例を示す図である。表示・操作装置２０は、例えば、第１ディスプレイ２０Ａと、第２ディスプレイ２０Ｂと、操作スイッチアッセンブリ２０Ｘとを含む。表示・操作装置２０は、更に、ＨＵＤ２０Ｙを含んでもよい。

車両Ｍには、例えば、ステアリングホイールＳＷが設けられた運転席ＤＳと、運転席ＤＳに対して車幅方向（図中Ｙ方向）に設けられた助手席ＡＳとが存在する。例えば、第１ディスプレイ２０Ａは、インストルメントパネルにおける運転席ＤＳと助手席ＡＳとの中間辺りから、助手席ＡＳの左端部に対向する位置まで延在する長方形状のディスプレイである。第２ディスプレイ２０Ｂは、運転席ＤＳと助手席ＡＳとの車幅方向に関する中間あたり、且つ第１ディスプレイの下方に設置されている。例えば、第１ディスプレイ２０Ａと第２ディスプレイ２０Ｂは、共にタッチパネルとして構成され、表示部としてＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electroluminescence）ディスプレイ、プラズマディスプレイなどを備える。操作スイッチアッセンブリ２０Ｘは、ダイヤルスイッチやボタン式スイッチなどの部品が一つに集積されたものである。表示・操作装置２０は、ユーザの操作内容を示す信号をエージェント装置１００に出力する。第１ディスプレイ２０Ａまたは第２ディスプレイ２０Ｂに表示される情報は、エージェント装置１００によって決定される。

図４は、車内のスピーカユニット３０の配置の一例を示す図である。例えば、車内には、スピーカユニット３０Ａ〜３０Ｈが配置される。スピーカユニット３０Ａは、運転席ＤＳ側の窓柱（いわゆるＡピラー）に設置されている。スピーカユニット３０Ｂは、運転席ＤＳに近いドアの下部に設置されている。スピーカユニット３０Ｃは、助手席ＡＳ側の窓柱に設置されている。スピーカユニット３０Ｄは、助手席ＡＳに近いドアの下部に設置されている。スピーカユニット３０Ｅは、右側の後部座席ＢＳ１側に近いドアの下部に設置されている。スピーカユニット３０Ｆは、左側の後部座席ＢＳ２側に近いドアの下部に設置されている。スピーカユニット３０Ｇは、第２ディスプレイ２０Ｂの近傍に設置されている。スピーカユニット３０Ｈは、車内の天井に設置されている。

係る配置において、例えば、エージェント装置１００が、専らスピーカユニット３０Ａおよび３０Ｂに音を出力させた場合、音像は運転席ＤＳ付近に定位することになる。また、エージェント装置１００が、専らスピーカユニット３０Ｃおよび３０Ｄに音を出力させた場合、音像は助手席ＡＳ付近に定位することになる。また、エージェント装置１００が、専らスピーカユニット３０Ｅに音を出力させた場合、音像は右側の後部座席ＢＳ１付近に定位することになる。また、エージェント装置１００が、専らスピーカユニット３０Ｆに音を出力させた場合、音像は左側の後部座席ＢＳ２付近に定位することになる。また、エージェント装置１００が、専らスピーカユニット３０Ｇに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカユニット３０Ｈに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、エージェント装置１００は、ミキサーやアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。

［エージェント装置］
図２の説明に戻る。エージェント装置１００は、管理部１１０と、第１エージェント機能部１５０−１と、第２エージェント機能部１５０−２と、第３エージェント機能部１５０−３と、ペアリングアプリ実行部１５２と、記憶部１６０とを備える。管理部１１０は、例えば、音響処理部１１２と、音声認識部１１４と、エージェントごとＷＵ（Wake Up）判定部１１６と、表示制御部１１８と、音声制御部１２０と、フィラー判定部１２２と、データ生成部１２４とを備える。第１エージェント機能部１５０−１、第２エージェント機能部１５０−２、および第３エージェント機能部１５０−３のうち、いずれかのエージェント機能部であるのか区別しない場合、単にエージェント機能部１５０と称する。３つのエージェント機能部１５０を示しているのは、図１におけるエージェントサーバ２００の数に対応させた一例に過ぎず、エージェント機能部１５０の数は、２つであってもよいし、４つ以上であってもよい。図２に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部１５０と車載通信装置６０の間に管理部１１０が介在してもよいように、任意に改変することができる。

エージェント装置１００の各構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部１６０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部１６０にインストールされてもよい。

記憶部１６０は、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、またはＲＡＭ（Random Access Memory）等により実現される。記憶部１６０には、例えば、プロセッサによって参照されるプログラムの他に、フィラー辞書１６２などが格納される。

フィラー辞書１６２は、フィラーが登録された辞書データである。フィラーとは、文節や単語の途中で発話されるワード或いはフレーズである。フィラーは、さまざまな言語に存在している。例えば、ユーザの使用言語が日本語である場合、フィラーは、「じゃあ」、「ええっと」、「それから」、「あの」、「まぁー」といったように、言い淀み時や言い直し時などに出現する場つなぎ的な表現（文節中のギャップを埋める挿入語）である。また、ユーザの使用言語が英語である場合、フィラーは、「ah」、「um」、「like」、「okay」、「you know」、「I mean」、「so」といったような表現である。なお、フィラーには、感動詞や接続詞の一部が含まれてもよい。フィラーは、「キーワード」の一例である。

管理部１１０は、例えば、ＯＳ（Operating System）やミドルウェアなどのプログラムがプロセッサによって実行されることで機能する。

管理部１１０の音響処理部１１２は、マイクロフォン１０から音声データを取得し、取得した音声データに対して、ウェイクアップワードが認識しやすくなるように、ノイズ除去や音の増幅といった音響処理を行う。ウェイクアップワードとは、提供可能な複数のエージェントＡＧの中から、起動すべきエージェントＡＧを呼び出すワード或いはフレーズである。ウェイクアップワードは、ホットワードとも呼ばれる。なお、「取得する」ことの意味は、典型的には、マイクロフォン１０から音声データを受動的に取得することであるが、能動的に取得することであってもよい。音響処理部１１２は、「取得部」の一例である。マイクロフォン１０から取得した音声データ、または音響処理が行われた音声データは、「第１データ」の一例である。

音声認識部１１４は、音響処理部１１２によって音響処理が行われた音声データに対して音声認識処理を行い、音声データをテキスト化したテキストデータを生成する。テキストデータには、発話の内容が文字として記述された文字列が含まれる。具体的には、音声認識部１１４は、音声データにおける音声波形の振幅と零交差に基づいて、ユーザが発話した音声区間を検出する。音声認識部１１４は、混合ガウス分布モデル（ＧＭＭ；Gaussian mixture model）に基づくフレーム単位の音声識別および非音声識別に基づく区間検出を行ってよい。

音声認識部１１４は、音声区間を検出すると、その音声区間における音声データをテキストデータに変換する。例えば、音声認識部１１４は、音声データを、ＢｉＬＳＴＭ（Bi-directional Long short-term memory）やアテンション機構などを含むリカレントニューラルネットワークに入力することで、音声信号が低周波数や高周波数などの複数の周波数帯に分離され、その各周波数帯の音声信号がフーリエ変換されたスペクトログラム（メルスペクトログラム）を得る。リカレントニューラルネットワークは、例えば、学習用の音声信号から生成されたスペクトログラムに対して、その学習用の音声信号が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。

そして、音声認識部１１４は、スペクトログラムを、複数の隠れ層を含む畳み込みニューラルネットワークに入力することで、スペクトログラムから文字列を得る。畳み込みニューラルネットワークは、例えば、学習用のスペクトログラムに対して、その学習用のスペクトログラムを生成するのに使われた音声信号に対応する文字列が教師ラベルとして対応付けられた教師データを利用することで、予め学習されていてよい。音声認識部１１４は、畳み込みニューラルネットワークから得た文字列を、テキストデータとして生成する。

エージェントごとＷＵ判定部１１６は、音声認識部１１４によって生成されたテキストデータに、第１エージェント機能部１５０−１に対応した第１エージェントＡＧ１のウェイクアップワードが含まれるのか、第２エージェント機能部１５０−２に対応した第２エージェントＡＧ２のウェイクアップワードが含まれるのか、或いは第３エージェント機能部１５０−３に対応した第３エージェントＡＧ３のウェイクアップワードが含まれるのかを判定する。

エージェントごとＷＵ判定部１１６は、テキストデータにウェイクアップワードが含まれると判定した場合、そのウェイクアップワードに対応するエージェント機能部１５０を起動させる。なお、エージェントごとＷＵ判定部１１６に相当する機能部がエージェントサーバ２００に搭載されてもよい。この場合、例えば、管理部１１０は、音響処理部１１２によって音響処理が行われた音声データをエージェントサーバ２００に送信し、エージェントサーバ２００がウェイクアップワードであると判定した場合、エージェントサーバ２００からの指示に従ってエージェント機能部１５０を起動させる。また、各エージェント機能部１５０は、常時起動しており且つウェイクアップワードの判定を自ら行うものであってよい。この場合、管理部１１０がエージェントごとＷＵ判定部１１６を備える必要はない。

エージェント機能部１５０は、対応するエージェントサーバ２００と協働して、音声による応答を含むサービスをエージェントＡＧとしてユーザに提供する。例えば、第１エージェント機能部１５０−１は、車載通信装置６０を介して第１エージェントサーバ２００−１と通信し、第１エージェントＡＧ１をユーザに提供する。また、第２エージェント機能部１５０−２は、車載通信装置６０を介して第２エージェントサーバ２００−２と通信し、第２エージェントＡＧ２をユーザに提供する。また、第３エージェント機能部１５０−３は、ペアリングアプリ実行部１５２を介して汎用通信装置７０と連携することで、第３エージェントサーバ２００−３と通信し、第３エージェントＡＧ３をユーザに提供する。エージェント機能部１５０は、「通信制御部」および「提供部」の一例である。

これらの複数のエージェント機能部１５０には、法律や条例、エージェントＡＧを提供する事業者同士の契約などに応じて、車載機器を制御する権限が割り振られる。例えば、第１エージェント機能部１５０−１には、車両機器５０を制御する権限が付与され、第２エージェント機能部１５０−２および第３エージェント機能部１５０−３には、車両機器５０を制御する権限が付与されさない。すなわち、第１エージェント機能部１５０−１は、少なくとも車両機器５０の制御を含むサービスを第１エージェントＡＧ１として提供し、第２エージェント機能部１５０−２および第３エージェント機能部１５０−３は、少なくとも車両機器５０の制御を含まないサービスを第２エージェントＡＧ２や第３エージェントＡＧ３として提供する。

ペアリングアプリ実行部１５２は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標、以下省略）によって汎用通信装置７０とペアリングを行い、第３エージェント機能部１５０−３と汎用通信装置７０とを接続させる。なお、第３エージェント機能部１５０−３は、ＵＳＢ（Universal Serial Bus）等の有線ケーブルを介して汎用通信装置７０と接続してもよい。

表示制御部１１８は、エージェント機能部１５０による指示に応じて各種ディスプレイに画像を表示させる。例えば、表示制御部１１８は、車内でユーザとのコミュニケーションを行う擬人化されたエージェントの画像（以下、エージェント画像と称する）を生成し、生成したエージェント画像をディスプレイに表示させる。エージェント画像は、例えば、ユーザに対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者（ユーザ）によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、観者によって、立体的に感じられ、三次元空間における頭部画像を含むことでエージェントの顔向きが認識される画像である。エージェント画像は、エージェントの動作や振る舞い、姿勢等が認識された本体（胴体や手足）の画像を含むものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

音声制御部１２０は、エージェント機能部１５０による指示に応じて、スピーカユニット３０に音声を出力させる。音声制御部１２０は、複数のスピーカユニット３０を用いて、エージェント画像が表示されるディスプレイの位置に合わせてエージェント音声の音像を定位させてもよい。音像が定位するとは、例えば、ユーザの左右の耳に伝達される音の大きさが調節されることにより、ユーザが感じる音源の空間的な位置を定めることである。

図５は、音像が定位する位置が定まる原理について説明するための図である。図５では、説明を簡略化するために、上述したスピーカユニット３０Ｂ、３０Ｄ、および３０Ｇを用いる例を示しているが、任意のスピーカユニット３０が使用されてよい。音声制御部１２０は、各スピーカに接続されたアンプ（ＡＭＰ）３２およびミキサー３４を制御して音像を定位させる。例えば、図５に示す空間位置ＭＰ１に音像を定位させる場合、音声制御部１２０は、アンプ３２およびミキサー３４を制御することにより、スピーカユニット３０Ｂに最大強度の５％の出力を行わせ、スピーカユニット３０Ｄに最大強度の８０％の出力を行わせ、スピーカユニット３０Ｇに最大強度の１５％の出力を行わせる。この結果、ユーザＰの位置からは、図５に示す空間位置ＭＰ１に音像が定位しているように感じることになる。

また、図５に示す空間位置ＭＰ２に音像を定位させる場合、音声制御部１２０は、アンプ３２およびミキサー３４を制御することにより、スピーカユニット３０Ｂに最大強度の４５％の出力を行わせ、スピーカユニット３０Ｄに最大強度の４５％の出力を行わせ、スピーカユニット３０Ｇに最大強度の４５％の出力を行わせる。この結果、ユーザＰの位置からは、図５に示す空間位置ＭＰ２に音像が定位しているように感じることになる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。なお、より詳細には、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数（HRTF；Head-related transfer function）に基づいて定まるため、音声制御部１２０は、予め官能試験などで得られた最適な出力配分で複数のスピーカユニット３０を制御することで、音像を任意の位置に定位させる。

フィラー判定部１２２は、音声認識部１１４によって生成されたテキストデータの中に、フィラーが含まれるか否かを判定する。音声認識部１１４およびフィラー判定部１２２は、「判定部」の一例である。

例えば、フィラー判定部１２２は、形態素解析などを行って、テキストデータの文字列を複数の形態素に分け、それら複数の形態素と、フィラー辞書１６２にフィラーとして登録されたワード或いはフレーズとが一致するか否かを判定する。フィラー判定部１２２は、複数の形態素の集合の中に、フィラーと一致する形態素が含まれている場合、テキストデータの中にフィラーが含まれると判定し、複数の形態素の集合の中に、フィラーと一致する形態素が含まれていない場合、テキストデータの中にフィラーが含まれないと判定する。

また、フィラー判定部１２２は、フィラー辞書１６２を利用してテキストデータの中にフィラーが含まれているか否かを判定することに代えて、或いは加えて、言語モデルを利用して、テキストデータの中にフィラーが含まれているか否かを判定してもよい。

本実施形態に係る言語モデルは、ある対象とする文字列がフィラーである確率を求めるように学習された確率モデルである。例えば、言語モデルは、ディープニューラルネットワークや、Ｎグラムモデル、隠れマルコフモデルなどによって実現されてよい。例えば、人間に台本を音読させたときの発話音声を文字列に書き起こし、その文字列に含まれる文字一つ一つに、フィラーであることを示す第１タグ、またはフィラーでないことを示す第２タグを付与した教師データを用意する。そして、用意した教師データに基づいて言語モデルを学習する。これによって、学習された言語モデルに対して、タグ付けされていない文字列が入力されると、言語モデルは、文字列に含まれる各文字が、第１タグが付与されるべき文字であることの尤もらしさ、或いは第２タグが付与されるべき文字であることの尤もらしさを確率（尤度）として出力する。フィラー判定部１２２は、音声認識部１１４によって生成されたテキストデータを言語モデルに入力し、その言語モデルによって出力された確率、すなわち、第１タグが付与されるべき文字の確率が閾値以上である場合、テキストデータの中にフィラーが含まれていると判定する。

データ生成部１２４は、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていると判定された場合、音声データのデータ容量（データサイズ）を少なくしたデータ（以下、圧縮データと称する）を生成する。圧縮データは、「第２データ」の一例である。

例えば、データ生成部１２４は、元の音声データから、フィラーとして発話された音声区間を取り除くことで、圧縮データを生成してよい。圧縮データは、フィラーとして発話された音声区間が取り除かれた音声データであるため、非可逆的に圧縮されたデータである。

［エージェントサーバ］
図６は、エージェントサーバ２００の構成と、エージェント装置１００の一部の構成とを示す図である。ここでは、エージェントサーバ２００の構成と共にエージェント機能部１５０、４２０等の動作について説明する。エージェント装置１００からネットワークＮＷまでの物理的な通信については、説明を省略する。

各エージェントサーバ２００は、通信部２１０を備える。通信部２１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースである。更に、エージェントサーバ２００は、例えば、音声認識部２２０と、自然言語処理部２２２と、対話管理部２２４と、ネットワーク検索部２２６と、応答文生成部２２８とを備える。これらの構成要素は、例えば、ＣＰＵやＧＰＵなどのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡなどのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部２５０に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、その記憶媒体がドライブ装置に装着されることで記憶部２５０にインストールされてもよい。

エージェントサーバ２００は、記憶部２５０を備える。記憶部２５０は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、またはＲＡＭ等により実現される。記憶部２５０には、例えば、プロセッサによって参照されるプログラムの他に、パーソナルプロファイル２５２、辞書ＤＢ（データベース）２５４、知識ベースＤＢ２５６、応答規則ＤＢ２５８などのデータやプログラムが格納される。

エージェントサーバ２００の音声認識部２２０は、通信部２１０によって受信された音声データに対して音声認識を行って、音声データをテキスト化したテキストデータを生成する。テキストデータには、発話の内容が文字として記述された文字列が含まれる。

自然言語処理部２２２は、辞書ＤＢ２５４を参照しながら、音声認識部２２０によって生成されたテキストデータの意味を解釈する。辞書ＤＢ２５４は、テキストデータに対して抽象化された意味情報が対応付けられたものである。辞書ＤＢ２５４は、同義語や類義語の一覧情報を含んでもよい。音声認識と自然言語処理は、段階が明確に分かれるものではなく、自然言語処理部２２２の処理結果を受けて音声認識部２２０が認識結果を修正するなど、相互に影響し合って行われてよい。

自然言語処理部２２２は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準的なテキスト「今日の天気」に置き換えたコマンドを生成する。つまり、自然言語処理部２２２は、文字の表記ゆれを考慮したうえでコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部２２２は、辞書ＤＢ２５４を一つのルールとして利用して意味解釈を行うことに加えて、或いは代えて、例えば、確率を利用した機械学習処理等の人工知能処理を用いてテキストデータの意味を認識したり、認識結果に基づくコマンドを生成したりしてもよい。

対話管理部２２４は、自然言語処理部２２２によって生成されたコマンドに基づいて、パーソナルプロファイル２５２や知識ベースＤＢ２５６、応答規則ＤＢ２５８を参照しながら車両Ｍのユーザに対する発話の内容を決定する。パーソナルプロファイル２５２は、ユーザごとに保存されているユーザの個人情報、趣味嗜好、過去の対話の履歴などを含む。知識ベースＤＢ２５６は、物事の関係性を規定した情報である。応答規則ＤＢ２５８は、コマンドに対してエージェントが行うべき動作（回答や機器制御の内容など）を規定した情報である。

また、対話管理部２２４は、音声データから得られる特徴情報を用いて、パーソナルプロファイル２５２と照合を行うことで、ユーザを特定してもよい。この場合、パーソナルプロファイル２５２には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーション、リズム（音の高低のパターン）等の喋り方の特徴や、メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficients）等による特徴量に関する情報である。音声の特徴情報は、例えば、ユーザの初期登録時に所定の単語や文章等をユーザに発声させ、発声させた音声を認識することで得られる。

例えば、自然言語処理部２２２によって生成されたコマンドが、ネットワークＮＷを介して検索可能な情報を要求するコマンドである場合、対話管理部２２４は、ネットワーク検索部２２６に検索を行わせる。ネットワーク検索部２２６は、ネットワークＮＷを介して各種ウェブサーバ３００にアクセスし、所望の情報を取得する。「ネットワークＮＷを介して検索可能な情報」とは、例えば、車両Ｍの周辺にあるレストランの一般ユーザによる評価結果であったり、その日の車両Ｍの位置に応じた天気予報であったりする。

応答文生成部２２８は、対話管理部２２４により決定された発話の内容が車両Ｍのユーザに伝わるように応答文を生成し、生成した応答文を、音声データの送信元であるエージェント装置１００に送信する。応答文には、例えば、発音記号が含まれていてもよいし、合成したい音声をテキストに置き換えた文字列が含まれていてもよい。応答文生成部２２８は、ユーザがパーソナルプロファイルに登録されたユーザであることが特定されている場合に、ユーザの名前を呼んだり、ユーザの話し方に似せた話し方にした応答文を生成したりしてもよい。応答文は、「第３データ」の一例である。

エージェント装置１００のエージェント機能部１５０は、エージェントサーバ２００から応答文を取得すると、その応答文に基づいて人工的な音声を合成する。例えば、エージェント機能部１５０は、波形接続型音声合成（Concatenative synthesis）と、フォルマント合成（Formant synthesis）とを行って、応答文に含まれる発音記号を読み上げる音声を合成する。また、エージェント機能部１５０は、応答文に発音記号が含まれず、音声として合成すべき文字列が含まれる場合、その文字列を発音記号に変換し、変換した発音記号を読み上げる音声を合成してよい。また、エージェント機能部１５０は、予め決められた複数のフレーズのそれぞれに対して音声が対応付けられている場合、それらの音声を組み合わせることで音声を合成してもよい。

エージェント機能部１５０は、合成した音声を出力するように音声制御部１２０に指示する。また、エージェント機能部１５０は、音声出力に合わせてエージェントの画像を表示するように表示制御部１１８に指示してよい。このようにして、質問や要求などに対して応答する仮想的なエージェントＡＧが、一種のサービスとして車両Ｍに乗車したユーザに提供される。

［第１実施形態に係るエージェント装置の処理フロー］
以下、第１実施形態に係るエージェント装置１００による一連の処理の流れをフローチャートを用いて説明する。図７は、第１実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、マイクロフォン１０からエージェント装置１００に音声データが入力された場合に、所定の周期で繰り返し行われる。

まず、音響処理部１１２は、マイクロフォン１０から入力された音声データに対して、ノイズ除去や音の増幅といった音響処理を行う（ステップＳ１００）。

次に、音声認識部１１４は、音響処理部１１２によって音響処理が行われた音声データに対して音声認識処理を行い、音声データからテキストデータを生成する（ステップＳ１０２）。

次に、フィラー判定部１２２は、音声認識部１１４によって生成されたテキストデータの中に、フィラーが含まれるか否かを判定する（ステップＳ１０４）。

データ生成部１２４は、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていると判定された場合、圧縮データを生成する（ステップＳ１０６）。

図８から図１０は、圧縮データの生成方法を模式的に説明するための図である。図８におけるＤａは、ユーザが発話した音声をマイクロフォン１０が収音した音声データを表しており、Ｄｔは、音声データＤａをテキスト化したテキストデータである。図８の例では、音声データＤａが「じゃあレストランん−探して」という文字列を含むテキストデータＤｔに変換されている。

図９の例では、フィラー判定部１２２が、「じゃあレストランん−探して」という文字列を、「じゃあ」という形態素ＭＲＰ１と、「レストラン」という形態素ＭＲＰ２と、「ん−」という形態素ＭＲＰ３と、「探して」という形態素ＭＲＰ４とに分割している。この際、「レストラン」という形態素ＭＲＰ２の意味が「食事を提供する店舗である」といったように、各形態素の意味解釈まではされないものとする。Ｓｇ１は、形態素ＭＲＰ１に対応した音声区間であり、Ｓｇ２は、形態素ＭＲＰ２に対応した音声区間であり、Ｓｇ３は、形態素ＭＲＰ３に対応した音声区間であり、Ｓｇ４は、形態素ＭＲＰ４に対応した音声区間である。これら複数の形態素のうち、形態素ＭＲＰ１と形態素ＭＲＰ３とはフィラーである。従って、フィラー判定部１２２は、テキストデータＤｔの中にフィラーが含まれると判定する。

これを受けて、データ生成部１２４は、図１０に例示するように、音声データＤａから、フィラーと判定された形態素ＭＲＰ１に対応した音声区間Ｓｇ１と、形態素ＭＲＰ３に対応した音声区間Ｓｇ３とを取り除き、フィラーと判定されていない形態素ＭＲＰ２に対応した音声区間Ｓｇ２と、形態素ＭＲＰ４に対応した音声区間Ｓｇ４とを繋げた新たな音声データＤａ＃を、圧縮データとして生成する。

「音声区間を繋げる」とは、例えば、２つの音声区間のうち、一方の音声区間の終了時刻と、他方の音声区間の開始時刻とを合わせることである。例えば、音声区間Ｓｇ２が時刻ｔ１からΔτ１経過した時刻ｔ２までの区間であり、音声区間Ｓｇ３が時刻ｔ２からΔτ２経過した時刻ｔ３までの区間であり、音声区間Ｓｇ４が時刻ｔ３からΔτ３経過した時刻ｔ４までの区間であったとする。この場合、データ生成部１２４は、音声区間Ｓｇ４の開始時刻ｔ３を、音声区間Ｓｇ３の開始時刻であったｔ２に変更し、音声区間Ｓｇ４の開始時刻ｔ４を、新たな開始時刻であるｔ２からΔτ３経過した時刻ｔ５に変更する。これによって、音声区間Ｓｇ２と音声区間Ｓｇ４とが連続した一つの音声データが生成される。音声区間Ｓｇ２は、「第１発話」の一例であり、音声区間Ｓｇ４は、「第２発話」の一例である。

また、データ生成部１２４は、音声区間を繋げることで音声データを圧縮することに代えて、フィラーと判定されていない形態素に対応した音声区間のデータ量を小さい値（例えば０ビット）に変更することで、圧縮データを生成してもよい。例えば、フィラーの音声区間を０ビットにした場合、その音声区間は無音となり、ユーザが何も発話していない音声区間と同じように扱われる。

また、データ生成部１２４は、音声データＤａの圧縮データを生成することに加えて、或いは代えて、テキストデータＤｔから、フィラーと判定された形態素ＭＲＰ１および形態素ＭＲＰ３を取り除き、フィラーと判定されていない形態素ＭＲＰ２と、形態素ＭＲＰ４とを繋げた新たなテキストデータＤｔ＃を、圧縮データとして生成してもよい。

一般的に、音声データＤａに比べてテキストデータＤｔの方がデータ容量は少ないことが知られている。例えば、音声データＤａは、数メガバイトから数百メガバイト程度の容量であり、テキストデータＤｔは、数キロバイトから数百キロバイト程度の容量である。そのため、データ容量を少なくするという意味では、テキストデータＤｔは、音声データＤａに比べれば既に圧縮されている。しかしながら、本実施形態では、音声データＤａを変換したテキストデータＤｔから、フィラーと判定されたワードやフレーズを取り除くため、データの種類やフォーマットを変更せずに、更に、データ容量を少なくすることができる。

図７のフローチャートの説明に戻る。次に、エージェント機能部１５０は、データ生成部１２４によって生成された圧縮データ、すなわち、データ容量を少なくした音声データまたはテキストデータの少なくとも一方を、車載通信装置６０を介して、エージェントサーバ２００に送信する（ステップＳ１０８）。例えば、音声データやテキストデータは、パケット通信によってエージェントサーバ２００に送信される。Ｓ１０８の処理は、エージェントごとＷＵ判定部１１６が、テキストデータにウェイクアップワードが含まれると判定していることを前提に行われる。

なお、Ｓ１０４の処理において、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていないと判定された場合、エージェント機能部１５０は、データ容量を少なくしていない音声データまたはテキストデータの少なくとも一方を、車載通信装置６０を介して、エージェントサーバ２００に送信する。

例えば、第１エージェント機能部１５０−１は、音声データまたはテキストデータの少なくとも一方を第１エージェントサーバ２００−１に送信する。また、第２エージェント機能部１５０−２は、音声データまたはテキストデータの少なくとも一方を第２エージェントサーバ２００−２に送信する。また、第３エージェント機能部１５０−３は、音声データまたはテキストデータの少なくとも一方を第３エージェントサーバ２００−３に送信する。

次に、エージェント機能部１５０は、車載通信装置６０がエージェントサーバ２００から応答文を受信したか否かを判定し（ステップＳ１１０）、車載通信装置６０がエージェントサーバ２００から応答文を受信した場合、応答文に基づいて合成音声を生成する（ステップＳ１１２）。

次に、音声制御部１２０は、エージェント機能部１５０によって生成された合成音声を、スピーカユニット３０に出力させる（ステップＳ１１４）。この際、表示制御部１１８は、エージェント画像を表示・操作装置２０に表示させてよい。これによって本フローチャートの処理が終了する。

［第１実施形態に係るエージェントサーバの処理フロー］
以下、第１実施形態に係るエージェントサーバ２００による一連の処理の流れをフローチャートを用いて説明する。図１１は、第１実施形態に係るエージェントサーバ２００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、エージェントサーバ２００の通信部２１０がエージェント装置１００から音声データを受信した場合に所定の周期で繰り返し行われる。

まず、音声認識部２２０は、通信部２１０がエージェント装置１００から受信した音声データに対して音声認識処理を行い、音声データをテキスト化したテキストデータを生成する（ステップＳ２００）。なお、エージェント装置１００が、エージェントサーバ２００に音声データに加えて、或いは代えて、テキストデータを送信した場合、音声認識部２２０は、Ｓ２００の処理を省略してもよい。

次に、自然言語処理部２２２は、音声認識部２２０によって生成されたテキストデータ、または通信部２１０が受信したテキストデータの意味を解釈する（ステップＳ２０２）。

次に、対話管理部２２４は、自然言語処理部２２２によって解釈されたテキストデータの意味に基づいて、ユーザに対する発話の内容を決定する（ステップＳ２０４）。

次に、応答文生成部２２８は、対話管理部２２４により決定された発話の内容に基づいて、応答文を生成する（ステップＳ２０６）。

次に、応答文生成部２２８は、通信部２１０を介して、生成した応答文をエージェント装置１００に送信する（ステップＳ２０８）。これによって本フローチャートの処理が終了する。

以上説明した第１実施形態によれば、エージェント装置１００が、マイクロフォン１０から音声データを取得し、取得した音声データのデータ容量を少なくした圧縮データを生成し、この圧縮データを、エージェントサーバ２００に送信する。エージェントサーバ２００は、エージェント装置１００から音声データ（圧縮データも含む）を受信すると、受信した音声データから、ユーザの発話内容がテキスト化されたテキストデータを生成し、そのテキストデータの意味を解釈する。エージェントサーバ２００は、解釈したテキストデータの意味に基づいて応答文を生成し、生成した応答文をエージェント装置１００に送信する。これを受けて、エージェント装置１００は、ユーザの発話に対して合成音声を用いて応答するサービスを、エージェントＡＧとしてユーザに提供する。

一般的に、データ通信は、携帯電話の販売事業者などによって販売或いは貸与されるＳＩＭ（Subscriber Identity Module）カードを利用して行われる。ＳＩＭカードのＩＤ番号は、ユーザに対応付けられており、データ通信量に応じて通信速度に制限が設けられたり、ユーザに請求される利用料が上乗せされたりする。本実施形態では、音声データやテキストデータを圧縮したうえで、エージェントサーバ２００に送信するため、車両Ｍとエージェントサーバ２００との間のデータ通信量を抑えることができる。この結果、データの通信速度に制限が設けられたり、データ通信に係る利用料が増加したりすることを抑制することができ、ユーザをより満足させることができる。

＜第１実施形態の変形例＞
以下、第１実施形態の変形例について説明する。上述した第１実施形態では、フィラー判定部１２２が、フィラー辞書１６２などを用いて、テキストデータからフィラーと一致する形態素を選び出し、データ生成部１２４が、音声データから、フィラーと一致する形態素に対応した音声区間を取り除くことで、圧縮データを生成するものとして説明したがこれに限られない。例えば、フィラー判定部１２２が、主語や述語、目的語といった構文の主要素となるワードがテキストデータに含まれるか否かを判定し、データ生成部１２４が、音声データに含まれる複数の音声区間の中で、構文の主要素となるワードに対応した音声区間のみを残し、それ以外の音声区間を取り除くことで、圧縮データを生成してもよい。

＜第２実施形態＞
以下、第２実施形態について説明する。上述した第１実施形態では、エージェント装置１００が、圧縮データを含む全ての音声データをエージェントサーバ２００に送信するものとして説明した。これに対して、第２実施形態では、エージェント装置１００が、テキストデータの意味を解釈し、解釈した意味に基づいてコマンドを生成し、生成したコマンドが、エージェントサーバ２００を介さずに処理可能なコマンド（以下、ローカルコマンドと称する）である場合、エージェントサーバ２００に音声データを送信せずに、ローカルコマンドに応じた処理を行う点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

図１２は、第２実施形態に係るエージェント装置１００の構成と、車両Ｍに搭載された機器との一例を示す図である。第２実施形態に係る管理部１１０は、上述した音響処理部１１２、音声認識部１１４、エージェントごとＷＵ判定部１１６、表示制御部１１８、音声制御部１２０、フィラー判定部１２２、およびデータ生成部１２４に加えて、更に自然言語処理部１２６を備える。また、第２実施形態に係る記憶部１６０には、フィラー辞書１６２に加えて、更にコマンド辞書１６４が格納される。

コマンド辞書１６４は、ローカルコマンドが登録された辞書データである。ローカルコマンドは、例えば、「イエス」、「ノー」、「キャンセル」、「オン」、「オフ」といった比較的簡易に認識することができるコマンドや、記憶部１６０に既に回答すべき応答文が登録されているコマンドである。例えば、車両機器５０の一つであるオーディオ装置が音楽を再生していた場合、ユーザがオーディオ装置を停止させるために「オフ」と発話した場合、その発話には「オフ」というローカルコマンドが含み得ることになる。

自然言語処理部１２６は、コマンド辞書１６４を参照しながら、音声認識部１１４によって生成されたテキストデータ、またはデータ生成部１２４によってデータ容量が圧縮されたテキストデータの意味を解釈して、ローカルコマンドを認識する。

エージェント機能部１５０は、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていると判定され、かつ自然言語処理部１２６によってローカルコマンドが認識された場合、データ生成部１２４によって生成された圧縮データをエージェントサーバ２００に送信せず、ローカルコマンドに応じた処理を行う。また、エージェント機能部１５０は、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていないと判定され、かつ自然言語処理部１２６によってローカルコマンドが認識された場合、圧縮されていない音声データなどをエージェントサーバ２００に送信せず、ローカルコマンドに応じた処理を行う。

［第２実施形態に係るエージェント装置の処理フロー］
以下、第２実施形態に係るエージェント装置１００による一連の処理の流れをフローチャートを用いて説明する。図１３は、第２実施形態に係るエージェント装置１００による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、マイクロフォン１０からエージェント装置１００に音声データが入力された場合に、所定の周期で繰り返し行われる。

まず、音響処理部１１２は、マイクロフォン１０から入力された音声データに対して、ノイズ除去や音の増幅といった音響処理を行う（ステップＳ３００）。

次に、音声認識部１１４は、音響処理部１１２によって音響処理が行われた音声データに対して音声認識処理を行い、音声データからテキストデータを生成する（ステップＳ３０２）。

次に、フィラー判定部１２２は、音声認識部１１４によって生成されたテキストデータの中に、フィラーが含まれるか否かを判定する（ステップＳ３０４）。

データ生成部１２４は、フィラー判定部１２２によってテキストデータの中にフィラーが含まれていると判定された場合、圧縮データを生成する（ステップＳ３０６）。

次に、自然言語処理部１２６は、コマンド辞書１６４を参照しながら、データ容量が圧縮される前のテキストデータ、またはデータ容量が圧縮された後のテキストデータの意味を解釈し、ローカルコマンドを認識する（ステップＳ３０８）。

次に、エージェント機能部１５０は、自然言語処理部１２６がローカルコマンドを認識したか否かを判定する（ステップＳ３１０）。

エージェント機能部１５０は、自然言語処理部１２６がローカルコマンドを認識した場合、音声データなどをエージェントサーバ２００に送信せず、ローカルコマンドに応じた処理を行う（ステップＳ３１２）。

一方、エージェント機能部１５０は、自然言語処理部１２６がローカルコマンドを認識しなかった場合、データ生成部１２４によって圧縮データが生成されていれば、その圧縮データをエージェントサーバ２００に送信し、データ生成部１２４によって圧縮データが生成されていなければ、圧縮されていない音声データやテキストデータをエージェントサーバ２００に送信する（ステップＳ３１４）。

次に、エージェント機能部１５０は、車載通信装置６０がエージェントサーバ２００から応答文を受信したか否かを判定し（ステップＳ３１６）、車載通信装置６０がエージェントサーバ２００から応答文を受信した場合、応答文に基づいて合成音声を生成する（ステップＳ３１８）。

次に、音声制御部１２０は、エージェント機能部１５０によって生成された合成音声を、スピーカユニット３０に出力させる（ステップＳ３２０）。この際、表示制御部１１８は、エージェント画像を表示・操作装置２０に表示させてよい。これによって本フローチャートの処理が終了する。

以上説明した第２実施形態によれば、エージェント装置１００が、テキストデータの意味を解釈し、解釈した意味に基づいてローカルコマンドを認識した場合、エージェントサーバ２００に音声データやテキストデータを送信せずに、ローカルコマンドに応じた処理を行うため、更に、車両Ｍとエージェントサーバ２００との間のデータ通信量を抑えることができる。この結果、データの通信速度に制限が設けられたり、データ通信に係る利用料が増加したりすることを抑制することができ、ユーザをより満足させることができる。

上記説明した実施形態は、以下のように表現することができる。
移動体に搭載され、かつ前記移動体の外部に存在する一以上の他装置と通信する通信部と、
前記移動体に搭載され、かつ前記移動体の利用者が発話した音声を収音するマイクロフォンと、
プログラムを記憶したストレージと、
プロセッサと、を備え、
前記プロセッサが前記プログラムを実行することにより、
前記マイクロフォンから前記利用者の発話の音声を示す第１データを取得し、
前記第１データから、前記第１データのデータ量を少なくした第２データを生成し、
前記通信部を用いて、前記第２データを少なくとも前記一以上の他装置のいずれかに送信し、
前記第２データが送信された前記他装置から前記通信部が前記発話の意味の解釈結果を示す第３データを受信した場合、前記第３データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する、
ように構成されている、エージェント装置。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１…エージェントシステム、１０…マイクロフォン、２０…表示・操作装置、３０…スピーカユニット、５０…車両機器、６０…車載通信装置、１００…エージェント装置、１１０…管理部、１１２…音響処理部、１１４…音声認識部、１１６…エージェントごとＷＵ判定部、１１８…表示制御部、１２０…音声制御部、１２２…フィラー判定部、１２４…データ生成部、１５０…エージェント機能部、１６０…記憶部、２００…エージェントサーバ、２１０…通信部、２２０…音声認識部、２２２…自然言語処理部、２２４…対話管理部、２２６…ネットワーク検索部、２２８…応答文生成部、２５０…記憶部

Claims

利用者の発話の音声を示す第１データを取得する取得部と、
前記第１データから、前記第１データのデータ量を少なくした第２データを生成する生成部と、
前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する提供部と、
を備えるエージェント装置。
前記利用者は、移動体を利用する利用者であり、
前記移動体に搭載され、かつ前記移動体の外部に存在する一以上の他装置と通信する通信部と、
前記通信部を用いて、前記第２データを少なくとも前記一以上の他装置のいずれかに送信する通信制御部と、を備え、
前記提供部は、前記第２データが送信された前記他装置から前記通信部が前記発話の意味の解釈結果を示す第３データを受信した場合、前記第３データに基づいて、前記サービスを提供する、
請求項１に記載のエージェント装置。
前記第１データに対して音声認識を行い、前記第１データが示す発話の中に、予め決められたキーワードが含まれるか否かを判定する判定部を更に備え、
前記生成部は、前記判定部の判定結果に応じて、前記第２データを生成する、
請求項１または２に記載のエージェント装置。
前記判定部は、前記キーワードとして、前記第１データが示す発話の中にフィラーが含まれるか否かを判定し、
前記生成部は、前記第１データが示す発話の中に前記フィラーが含まれると前記判定部が判定した場合、前記第１データから前記フィラーを除いた前記第２データを生成する、
請求項３に記載のエージェント装置。
前記生成部は、前記第１データが示す発話において、第１発話が前記キーワードの前に出現し、第２発話が前記キーワードの後に出現する場合、前記キーワードを介さずに前記第１発話と前記第２発話とを繋げたデータを、前記第２データとして生成する、
請求項３または４に記載のエージェント装置。
前記第１データまたは前記第２データに対して自然言語処理を行い、前記第１データまたは前記第２データが示す発話の意味を解釈する自然言語処理部を更に備え、
前記通信制御部は、前記自然言語処理部によって解釈された意味に応じて、前記第２データを前記他装置に送信せず、
前記提供部は、前記自然言語処理部によって解釈された意味に応じた処理を、前記サービスとして行う、
請求項２に記載のエージェント装置。
コンピュータが、
利用者の発話の音声を示す第１データを取得し、
前記第１データから、前記第１データのデータ量を少なくした第２データを生成し、
前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する、
情報提供方法。
コンピュータに、
利用者の発話の音声を示す第１データを取得する処理と、
前記第１データから、前記第１データのデータ量を少なくした第２データを生成する処理と、
前記第２データに基づいて、前記発話に対する応答を含むサービスを前記利用者に提供する処理と、
を実行させるためのプログラム。