JP2020060830A - エージェント装置、エージェント提示方法、およびプログラム - Google Patents
エージェント装置、エージェント提示方法、およびプログラム Download PDFInfo
- Publication number
- JP2020060830A JP2020060830A JP2018189708A JP2018189708A JP2020060830A JP 2020060830 A JP2020060830 A JP 2020060830A JP 2018189708 A JP2018189708 A JP 2018189708A JP 2018189708 A JP2018189708 A JP 2018189708A JP 2020060830 A JP2020060830 A JP 2020060830A
- Authority
- JP
- Japan
- Prior art keywords
- agent
- occupant
- image
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004807 localization Effects 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 210
- 238000004458 analytical method Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 25
- 230000008921 facial expression Effects 0.000 description 20
- 238000003058 natural language processing Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 235000019640 taste Nutrition 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/10—Input arrangements, i.e. from user to vehicle, associated with vehicle functions or specially adapted therefor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/20—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
- B60K35/21—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using visual output, e.g. blinking lights or matrix displays
- B60K35/22—Display screens
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
- B60K35/20—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor
- B60K35/26—Output arrangements, i.e. from vehicle to user, associated with vehicle functions or specially adapted therefor using acoustic output
- B60K35/265—Voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K2360/00—Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
- B60K2360/148—Instrument input by voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K2360/00—Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
- B60K2360/149—Instrument input by detecting viewing direction not otherwise provided for
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
【課題】エージェントに自然な挙動を行わせることができるエージェント装置、エージェント提示方法、およびプログラムを提供すること。【解決手段】車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を解釈する解釈部と、前記車室内に設けられる表示部と、乗員に対して話しかける態様のエージェント画像を前記表示部の一部領域に表示させると共に、前記エージェント画像が前記乗員の少なくとも1名に向かって話しかける音声を前記スピーカに出力させるエージェント制御部と、を備え、前記エージェント制御部は、前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント装置。【選択図】図1
Description
本発明は、エージェント装置、エージェント提示方法、およびプログラムに関する。
従来、運転席の周りに複数の表示部を備え、ナビゲーションシステムの設定や映像等のコンテンツの選択や再生等の操作入力に基づいて、複数の表示部のうち、予め設定された表示部にナビゲーションシステムの地図および案内の表示や、映像コンテンツの表示等を行う表示システムが知られている(例えば、特許文献1参照)。
しかしながら、従来の技術では、乗員が複数名である場合、操作入力に基づく表示結果がその操作を行った乗員にとって視認しやすい位置に表示されない可能性があった。この結果、仮にエージェント画像を制御する装置に適用した場合、エージェントが不自然な挙動をする可能性があった。
本発明の態様は、このような事情を考慮してなされたものであり、エージェントに自然な挙動を行わせることができるエージェント装置、エージェント提示方法、およびプログラムを提供することを目的の一つとする。
この発明に係るエージェント装置、エージェント提示方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェント装置は、車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を解釈する解釈部と、前記車室内に設けられる表示部と、乗員に対して話しかける態様のエージェント画像を、前記表示部の一部領域に顔向きが認識可能な態様で表示させると共に、音声を前記スピーカに出力させるエージェント制御部と、を備え、前記エージェント制御部は、前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント装置である。
(1):この発明の一態様に係るエージェント装置は、車室内の音声を収集するマイクと、前記車室内に音声を出力するスピーカと、前記マイクにより収集された音声の意味を解釈する解釈部と、前記車室内に設けられる表示部と、乗員に対して話しかける態様のエージェント画像を、前記表示部の一部領域に顔向きが認識可能な態様で表示させると共に、音声を前記スピーカに出力させるエージェント制御部と、を備え、前記エージェント制御部は、前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント装置である。
(2):上記(1)の一態様において、複数の前記スピーカを備え、前記複数のスピーカの出力の組み合わせで音像定位可能であり、前記エージェント制御部は、前記エージェント画像を、複数の乗員のそれぞれの近傍に亘って存在する一以上の前記表示部のうち、前記話しかけ先に近い一部領域に表示させ、前記スピーカを制御して前記エージェント画像の表示位置に音像を定位させるものである。
(3):上記(2)の態様において、前記エージェント制御部は、運転者でない前記乗員を優先的に前記話しかけ先として選択するものである。
(4):上記(3)の態様において、優先的に前記話しかけ先として選択する前記乗員は、前記車室内の助手席に着座する乗員であるものである。
(5):上記(2)から(4)のいずれかの態様において、前記エージェント制御部は、前記エージェント画像の顔向きを変更した後、さらに前記解釈部により前記エージェント画像の顔向きに関する前記解釈が行われた場合、前記顔向きを無指向とするものである。
(6):上記(1)から(5)のいずれかの態様において、前記エージェント制御部は、前記解釈部により前記エージェント画像の名称の入力を繰り返し受け付けたと解釈された場合、前記顔向きを変更するものである。
(7):上記(1)から(6)のいずれかの態様において、前記エージェント制御部は、前記マイクが受け付けた前記音声の音圧の上昇率が所定の割合以上である場合、前記顔向きを変更するものである。
(8):この発明の一態様に係るエージェント提示方法は、コンピュータが、車室内の音声を収集し、前記車室内に音声を出力し、収集された音声の意味を解釈し、乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、エージェント提示方法である。
(9):この発明の一態様に係るプログラムは、コンピュータに、車室内の音声を収集させ、前記車室内に音声を出力させ、収集された音声の意味を解釈させ、乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更させる、プログラムである。
(1)〜(9)によれば、エージェントに自然な挙動を行わせることができる。
以下、図面を参照し、本発明のエージェント装置、エージェント提示方法、およびプログラムの実施形態について説明する。また、以下では、エージェント装置の一例として、車両に搭載され、対話型エージェント機能を備えたエージェント装置について説明する。エージェント装置とは、例えば、車両の乗員と対話をしながら、乗員の要求に応対して各種の情報提供を行ったり、車両内の機器の制御を行ったりするものである。また、エージェント装置は、乗員の表情や声の調子から乗員の状態を判断して運転支援を行ったり、乗員のライフスタイルや嗜好を学習して、状況に応じた選択肢の提案を行ったりするものであってもよい。エージェント装置は、乗員に対話者を視認させるため、例えば、擬人化された動物やキャラクタ等の画像(以下、エージェント画像と称する)を表示部に表示させる。エージェント画像は、例えば、少なくとも観者によって表情や顔向きが認識される程度の顔画像を含む。例えば、エージェント画像は、顔領域の中に目や鼻に擬したパーツが表されており、顔領域の中のパーツの位置に基づいて顔向きが認識されるものである。また、エージェント画像は、立体的に感じられ、観者によって三次元空間における頭部画像を含むことで、顔向きが認識されるものであってもよい。エージェント装置は、例えば、乗員の音声を認識する音声認識処理(音声をテキスト化する処理)に加え、自然言語機能(テキストの構造や意味を理解する処理)、対話制御処理、検索処理等を統合的に利用して実現される。また、これらの処理の一部または全部は、AI(Artificial Intelligence)技術によって実現される。また、これらの処理を行うための構成の一部または全部は、車両と通信可能なサーバ装置等に設けられる。
[全体構成]
図1は、実施形態に係るエージェント装置を含むエージェントシステム1の構成図である。エージェントシステム1は、エージェント装置100と、サーバ装置200とを備える。エージェント装置100とサーバ装置200とは、例えば、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等のネットワークNWによりデータの送受信が可能な状態で接続されている。サーバ装置200は、複数のエージェント装置100との通信が可能であるが、以下では説明の便宜上、1つのエージェント装置100と通信するものとする。
図1は、実施形態に係るエージェント装置を含むエージェントシステム1の構成図である。エージェントシステム1は、エージェント装置100と、サーバ装置200とを備える。エージェント装置100とサーバ装置200とは、例えば、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等のネットワークNWによりデータの送受信が可能な状態で接続されている。サーバ装置200は、複数のエージェント装置100との通信が可能であるが、以下では説明の便宜上、1つのエージェント装置100と通信するものとする。
エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声等による問い合わせに対して、サーバ装置200にリクエストを行い、サーバ装置200から得られたリクエストに対する回答を、所定の出力態様で乗員に提示する。以下の説明において、乗員とは、例えば、運転席に着座する乗員(以下、運転者)であるものとするが、これに加えて(または、代えて)助手席や後部座席に着座する乗員(同乗者)でもよい。
エージェント装置100は、例えば、通信装置110と、車室内カメラ112と、マイク114と、表示部116と、スピーカ118と、操作部120と、ナビゲーション装置130と、エージェント制御装置150とを備える。これらの装置や機器は、CAN(Controller Area Network)通信線等の多重通信線やシリアル通信線、無線通信網等によって互いに接続される。なお、図1に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。
通信装置110は、例えば、セルラー網やWi−Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)等を利用して、ネットワークNWを介して他車両やサーバ装置200と通信する。
車室内カメラ112は、例えば、車両Mの車室内に設置されたシートに着座する乗員の顔を含む画像を撮像する。車室内カメラ112は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)等の固体撮像素子を利用したデジタルカメラである。車室内カメラ112は、例えば、所定のタイミングで乗員を撮像する。車室内カメラ112の撮像画像は、エージェント制御装置150に出力される。
マイク114は、車室内の音声を集音する音声入力装置である。例えば、マイク114は、ステアリングホイールに設置される。また、マイク114は、乗員が車室内のシートに着座したときの前方付近に設置される。例えば、マイク114は、ステアリングホイール、インストルメントパネル、またはシートに設置される。
表示部116は、車室内のシートに着座する乗員の前方付近に設置される。また、スピーカ118は、車室内のシート付近または表示部116付近に設置される。表示部116およびスピーカ118は、車室内に複数設置されてよい。
図2は、車両Mに設置される表示部およびスピーカを模式的に示す図である。図2の車室内には、表示部116A〜116Dと、スピーカ118A〜118Fとが設置されている。表示部116Aは、例えば、HUD(Head-Up Display)装置である。HUD装置は、風景に重畳させて画像を視認させる装置であり、一例として、車両Mのフロントウインドシールドやコンバイナーに画像を含む光を投光することで、乗員に虚像を視認させる装置である。HUD装置による画像を視認させる対象の乗員は、主に運転者または助手席に着座する乗員であるが、後部座席に着座する乗員であってもよい。表示部116Aは、例えば、運転者の視野を遮らない程度に、フロントウインドシールドの下方領域に設定されてもよい。表示部116Bは、ナビゲーション装置130により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。
表示部116Bは、インストルメントパネルIPにおける運転席(例えばステアリングホイールに最も近い座席)の正面付近に設けられ、乗員がステアリングホイールの間隙から、或いはステアリングホイール越しに視認可能な位置に設置される。表示部116Bは、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)表示装置等である。表示部116Bには、例えば、車両Mの速度、エンジン回転数、燃料残量、ラジエータ水温、走行距離、その他の情報の画像が表示される。
表示部116Cは、インストルメントパネルIPの中央付近に設置される。表示部116Cは、例えば、表示部116Bと同様に、LCDや有機EL表示装置等である。表示部116Cは、例えば、ナビゲーション装置130により実行されるナビゲーション処理に対応する画像、その他の画像等を表示する。また、表示部116Cは、テレビ番組を表示したり、DVDを再生したり、ダウンロードされた映画等のコンテンツを表示してもよい。
表示部116Dは、インストルメントパネルIPにおける助手席(運転席の隣りの座席)の正面付近に設けられる。表示部116Dには、テレビ番組を表示したり、DVDを再生したり、ダウンロードされた映画等のコンテンツが表示される。また、車室内には、乗員が車両Mのサイドミラーによって視認可能な情報を車外カメラによって取得し、取得した情報を表示する表示部が設置されていてもよい。
スピーカ118Aおよびスピーカ118Bは、例えば、車両Mの左右の前方の窓柱(いわゆるAピラー)に設置される。また、スピーカ118Cは、運転席側のドアの下部に設置され、スピーカ118Dは、助手席側のドアの下部に設置される。スピーカ118Eは、表示部116C付近、つまり、インストルメントパネルIPの中央付近に設置される。スピーカ118Fは、車室内の天井の中央部付近に設置される。
また、車両Mには、後部座席付近にスピーカが設けられていてもよい。図3は、後部座席付近のスピーカの位置を説明するための図である。図3の例では、図2に示すスピーカ118A〜118Fの他に、運転席ST1と助手席ST2の後方に設置された後部座席ST3付近にスピーカ118Gおよび118Hが設けられている。具体的には、スピーカ118Gおよび118Hは、左右の方向ドアの下部に設けられる。また、スピーカ118は、車両Mの前方ドアと後方ドアとの間に設けられる窓柱(いわゆるBピラー)に設けられてもよく、後部座席の方向に設けられてもよい。
操作部120は、乗員による手動での操作を受け付ける。操作部120は、例えば、スイッチやボタン、キー等を備える。操作部120は、例えば、ステアリングホイールやインストルメントパネルに設けられる。また、操作部120は、タッチパネルとして、表示部116と一体に構成されてもよい。
ナビゲーション装置130は、例えば、GNSS(Global Navigation Satellite System)衛星から受信した信号に基づいて、車両Mの位置を特定する。また、ナビゲーション装置130は、特定された車両Mの位置(或いは入力された任意の位置)から、操作部120や表示部116を用いて乗員により入力された目的地までの経路(以下、地図上経路)を、地図情報132を参照して決定する。地図情報132は、例えば、道路を示すリンクと、リンクによって接続されたノードとによって道路形状が表現された情報である。地図情報132は、道路の曲率やPOI(Point Of Interest)情報等を含んでもよい。
ナビゲーション装置130は、地図上経路に基づいて、表示部116やスピーカ118を用いた経路案内を行ってもよい。ナビゲーション装置130は、例えば、乗員の保有するスマートフォンやタブレット端末等の端末装置の機能によって実現されてもよい。ナビゲーション装置130は、通信装置110を介してサーバ装置200或いはナビゲーションサーバに現在位置と目的地を送信し、サーバ装置200やナビゲーションサーバから地図上経路と同等の経路を取得してもよい。ナビゲーション装置130は、エージェント制御装置150の一機能であってもよい。
[エージェント制御装置]
エージェント制御装置150は、例えば、音声入力部152と、車両状態解析部154と、乗員状態解析部156と、提示制御部160と、画像生成部162と、音声生成部164と、アプリ呼出部166と、記憶部170と、エージェント制御部180とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部170に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部170にインストールされてもよい。
エージェント制御装置150は、例えば、音声入力部152と、車両状態解析部154と、乗員状態解析部156と、提示制御部160と、画像生成部162と、音声生成部164と、アプリ呼出部166と、記憶部170と、エージェント制御部180とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部170に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部170にインストールされてもよい。
音声入力部152は、マイク114による音声の入力を受け付ける。音声入力部152は、受け付けられた音声(音声ストリーム)を、通信装置110を介してサーバ装置200に送信する。
車両状態解析部154は、例えば、ナビゲーション装置130により特定された車両Mの位置や、車両に搭載された車両センサにより取得される速度、加速度、鉛直軸回りの角速度、車両Mの向き等に基づいて、車両の状態を解析する。車両Mの状態には、例えば、車両Mが停止しているか、走行しているか等の状態や、右左折や車線変更を行っているか等の状態が含まれる。
乗員状態解析部156は、車室内カメラ112により撮像された画像に対する解析処理を行い、人物形状や顔形状等の特徴情報を抽出することで車室内のシートに着座する乗員の位置や、乗員の挙動、視線、表情変化に関する情報を取得する。乗員の挙動には、例えば、乗員の顔の向きや体の姿勢が含まれる。また、乗員状態解析部156は、シートに設けられた圧力センサやその他の検知センサにより、シートに着座する乗員の位置を検知してもよい。
また、乗員状態解析部156は、マイク114により収音された音声を解析し、解析した声の調子から乗員の状態を判断してもよいし、乗員の感情を推定してもよい。また、乗員状態解析部156は、乗員が複数名である場合、車室内カメラ112の撮像結果およびマイク114により収音された音声の解析結果に基づいて、どの乗員が発話者かを特定してもよい。乗員状態解析部156は「解釈部」の一例である。
提示制御部160は、音声入力部152からサーバ装置200に送信された音声に対する回答情報(例えば、サーバ装置200により生成された対話情報)に基づいて、エージェント画像を介して乗員に提示する内容を制御する。乗員に提示する内容には、例えば、表示部116に出力させる表示内容と、スピーカ118により出力させる音声内容と、車両内の各機能を実現するアプリケーション(以下、アプリと称する)を実行する内容とが含まれる。
また、提示制御部160は、乗員状態解析部156により解析された乗員の状態に基づいて、乗員に提示する内容を制御してもよい。また、提示制御部160は、乗員からの入力情報や乗員に提示した内容の履歴情報を記憶部170に記憶しておき、記憶した履歴情報から乗員のライフスタイルや嗜好を学習して、状況に応じた提示内容の制御を行ってもよい。
画像生成部162は、エージェント画像を生成するとともに、生成したエージェント画像を表示する表示部116および画面上における表示位置を設定し、設定した表示部116の表示位置にエージェント画像を表示される。例えば、画像生成部162は、音声の内容や回答情報の内容に基づいて、エージェントの表情を変化させたエージェント画像を生成してもよい。例えば、画像生成部162は、乗員からのリクエストが不明瞭でリクエストの再入力を依頼する場合には、悲しそうな表情のエージェントの画像を生成し、「ありがとう」等の音声が入力された場合には、うれしそうな表情のエージェント画像を生成する。また、画像生成部162は、回答情報を表示部116に表示するための画像(以下、回答画像と称する)を生成し、生成した回答画像を表示部116に表示させる。
音声生成部164は、乗員に出力する対話用の音声を生成する。例えば、音声生成部164は、一以上のスピーカ118を用いて、エージェント画像の表示位置に対応する位置に音像を定位させるための音声を生成する。音像が定位するとは、例えば、スピーカ118から出力されて乗員の左右の耳に伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。音像は、例えば、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まる。音声生成部164は、このような原理を利用して、音像を所定の位置に定位させることができる。
図4は、音像が定位する位置を移動させる様子を説明するための図である。図4では、説明を簡略化するために、上述したスピーカ118C〜118Eを用いて音像を定位させることを例示している。また、図4の例では、音声生成部164とスピーカ118C〜118Eとの間に、AMP164Aと、ミキサー164Bとを備える。AMP164Aは、音声生成部164による制御によりスピーカ118C〜118Eのそれぞれから出力される音の大きさを調整する。例えば、AMP164は、基準となる音の大きさ(最大強度)に対し、0〜100%の間で音の調節を可能とする。また、ミキサー164Bは、入力された複数の音を合成する機能を備える。また、ミキサー164Bは、スピーカ118C〜118Eのそれぞれに出力する音を分配する機能を備える。
例えば、図4に示す空間位置MP1に音像を定位させる場合、AMP164Aは、音声生成部164により生成された音声に基づいて、所定の出力対象の音声に対し、スピーカ118Cから最大強度の5%の出力を行い、スピーカ118Dから最大強度の80%の出力を行い、スピーカ118Eから最大強度の15%の出力を行った場合、乗員P1の位置からは、図4に示す空間位置MP1に音像が定位しているように感じることになる。
また、AMP164Aは、出力対象の音声に対し、スピーカ118Cから最大強度の45%の出力を行い、スピーカ118Dから最大強度の45%の出力を行い、スピーカ118Eから最大強度の45%の出力を行った場合、乗員P1の位置からは、図4に示す空間位置MP2に音像が定位しているように感じることができる。このように、車室内に立体的に設けられる複数のスピーカのうち、選択される一以上のスピーカのそれぞれから出力される音の大きさを調整することで、音像定位の位置を変化させることができる。
アプリ呼出部166は、提示制御部160により選択されたアプリを記憶部170により呼び出し、呼び出したアプリをエージェント制御部180で実行することで、そのアプリの機能を実現させる。例えば、エージェント制御部180により電話アプリ172が実行された場合には、通信装置110を介して外部の通話機能を備えた端末と通信を行い、マイク114やスピーカ118を用いて、端末所持者との通話が実現される。また、エージェント制御部180によりラジオアプリ174が実行された場合には、通信装置110を介してラジオ局から乗員が指定した周波数で発信された音声情報を取得し、取得した音声情報をスピーカ118から出力する機能が実現される。また、エージェント制御部180によりナビアプリ176が実行された場合には、ナビゲーション装置130と連携した経路案内機能等が実現される。
記憶部170は、例えば、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)等により実現される。記憶部170は、例えば、電話アプリ172、ラジオアプリ174、ナビアプリ176等のプロセッサによって読み出されて実行されるプログラム、その他の情報等が格納される。
エージェント制御部180は、エージェント制御装置150の各機能部に実行および停止を制御する。エージェント制御部180は、例えば、各機能部からの要求をAPI(Application Programming Interface)によって受け付け、受け付けた要求に基づく処理を実行する機能部を選択し、選択した機能部に、APIを介して処理を実行させる。
[サーバ装置]
サーバ装置200は、例えば、通信部210と、音声区間検出部220と、音声認識部230と、自然言語処理部240と、対話生成部250と、記憶部260とを備える。これらの構成要素は、例えば、CPU等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部170のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部170にインストールされてもよい。
サーバ装置200は、例えば、通信部210と、音声区間検出部220と、音声認識部230と、自然言語処理部240と、対話生成部250と、記憶部260とを備える。これらの構成要素は、例えば、CPU等のコンピュータプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPU等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め記憶部170のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROM等の着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることで記憶部170にインストールされてもよい。
通信部210は、例えば、セルラー網やWi−Fi網、Bluetooth、DSRC等を利用して、ネットワークNWを介してエージェント装置100と通信する。通信部210は、エージェント装置100から送信された音声ストリームを受信する。また、通信部210は、対話生成部250により生成された音声や文字情報、画像等の回答情報をエージェント装置100に送信する。
音声区間検出部220は、エージェント装置100から送信された音声ストリームから音声区間を検出する。例えば、音声区間検出部220は、例えば、音声ストリームにおける音声波形の振幅と零交差に基づいて音声区間を検出する。また、音声区間検出部220は、混合ガウス分布モデル(GMM;Gaussian mixture model) に基づくフレーム単位の音声・非音声識別に基づく区間検出を行ってもよく、予め記憶部260等に記憶された音声区間を検出するためのデータベースとのマッチング処理により区間検出を行ってもよい。
音声認識部230は、音声区間検出部220による音声区間における音声を認識し、音声を文字情報としてテキスト化する。また、音声認識部230は、音声から発話者の特徴を特定してもよい。発話者の特徴には、例えば、性別や年齢、運転者であるか、同乗者であるかの情報が含まれる。また、音声認識部230は、記憶部260に記憶されたパーソナルプロファイル264に記憶された個人の音声の特徴情報と照合して、個人を特定してもよい。
また、音声認識部230は、乗員が他の乗員をどのように呼ぶか、またはどのように呼ばれるか基づいて、特徴情報を特定してもよい。音声認識部230は、例えば、助手席に着座する乗員が、運転席に着座する乗員を「お父さん」と呼ぶことを認識した場合に、乗員による「お父さん」という呼称は、運転者を指すものであると認識する。なお、この機能は、エージェント制御装置150のエージェント制御部180が持っていてもよい。
自然言語処理部240は、音声認識部230によりテキスト化された文字情報に対する自然言語処理を実行し、文字情報の意味を解釈する。自然言語処理には、形態素解析、構文解析、意味解析、文脈解析等が含まれる。形態素解析は、例えば、文字情報を、意味を持つ最小の表現要素の単位に分割し、分割した単位(形態素)ごとの品詞等を解析する。構文解析は、例えば、形態素解析により得られた形態素をもとに、文の構造を解析する。意味解析は、例えば、構文解析により得られた構文をもとに、意味を持つまとまりを判別する。文脈解析は、例えば、文単位や文脈単位で意味を解釈する。
また、自然言語処理部240は、解釈した意味に対応するコマンドを生成する。例えば、解釈結果として、「東京駅まで何キロ?」、「東京駅までどのくらい走る?」等の意味が解釈された場合、自然言語処理部240は、標準文字情報「東京駅までの距離は?」に置き換えたコマンドを生成する。これにより、文字揺らぎがあった場合にも回答情報を取得しやすくすることができる。
また、自然言語処理部240は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を解釈したり、解釈結果に基づくコマンドを生成してもよい。自然言語処理部240は、生成されたコマンドを用いて記憶部260に記憶された回答情報262のコマンドを参照し、合致するコマンドに対応する回答情報を取得する。
対話生成部250は、自然言語処理部240により取得した内容に基づいて乗員と対話を行うための音声を生成する。また、対話生成部250は、生成された音声(音声ストリーム)や文字情報、画像等の回答情報を通信部210からエージェント装置100に送信させる。
記憶部260は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAM等により実現される。記憶部260は、例えば、回答情報262、パーソナルプロファイル264、その他の情報等が格納される。パーソナルプロファイル264は、例えば、個人の識別情報に、声の特徴情報、性別、年齢、好きなジャンル、過去のサーバ装置200の使用履歴等を対応付けた情報である。
[エージェント画像の初期表示]
図5は、表示部116Aにより表示されるエージェント画像EI1の一例を示す図である。前述したように、エージェント画像は、観者によって表情や顔向きが認識される程度の顔画像を含む。図5に示す例では、車室中央方向に向いていると乗員によって認識できるように、エージェント画像EI1を表示する様子を表している。
図5は、表示部116Aにより表示されるエージェント画像EI1の一例を示す図である。前述したように、エージェント画像は、観者によって表情や顔向きが認識される程度の顔画像を含む。図5に示す例では、車室中央方向に向いていると乗員によって認識できるように、エージェント画像EI1を表示する様子を表している。
エージェント制御部180は、音声入力部152により検出された乗員の発話を乗員状態解析部156が解析した結果、エージェントを呼び出す単語または文節が含まれることが解析された場合に、まず、エージェントが乗員の発話に応答する前に、乗員の少なくとも1人を話しかけ先として設定し、その話しかけ先に顔を向ける形態で、表示部116Aの話しかけ先の乗員に近い一部領域に顔向きが認識可能な態様でエージェント画像を表示させ、さらにその表示位置に音像を定位させる。
なお、エージェント制御部180は、マイク114の集音結果により発話者の方向が特定できる場合には、その特定した発話者の方向を話しかけ先とする。エージェント制御部180は、マイク114の集音結果により発話者の方向が特定できなかった場合には、車室内カメラ112の撮像結果により発話者の方向を特定してもよい。また、エージェント制御部180は、音声認識部230により発話者の性別や年代が特定できている場合には、その認識結果と車室内カメラ112の撮像結果に基づいて発話者を特定してもよい。
エージェント制御部180は、乗員が運転席ST1に着座する乗員のみである場合には、発話者を運転席ST1に着座する乗員であると認識する。また、乗員状態解析部156は、発話者が特定できない場合には、運転席ST1に着座する乗員以外を優先的に話しかけ先として選択してもよく、助手席ST2に着座する乗員がいる場合には、その乗員を話しかけ先として優先的に選択してもよい。これにより、助手席ST2に着座する乗員の反応を参考に、話しかけ先の変更の要否を判定することができる。なお、運転席ST1に着座する乗員は、操舵のため車両Mの走行方向等を向く時間が長く、エージェント画像を注視する可能性が低いと考えられる。すなわち、運転席ST1に着座する乗員は、エージェント画像の顔向きが合っているか否かの反応が十分に得られない可能性がある。そこで、エージェント制御部180は、助手席ST2に着座する乗員を優先的に話しかけ先として選択する。
図6は、車両Mの表示部116と乗員の着座位置の位置関係を説明する図である。乗員状態解析部156は、発話者の方向が特定できなかった場合には、初期表示として任意の方向を向いたエージェント画像EI1を表示させる。任意の方向とは、例えば、図6に示す領域Taの方向である。
[乗員の発話に伴うエージェント画像の顔向きの変更]
エージェント制御部180は、エージェント画像の初期表示の後、乗員状態解析部156により乗員のエージェント画像の顔向きに関する発話が検出された場合、エージェント画像の顔向きが、話しかけ先の乗員の向きとは異なる方向を向くように表示部116を制御する。
エージェント制御部180は、エージェント画像の初期表示の後、乗員状態解析部156により乗員のエージェント画像の顔向きに関する発話が検出された場合、エージェント画像の顔向きが、話しかけ先の乗員の向きとは異なる方向を向くように表示部116を制御する。
エージェント画像の顔向きに関する発話とは、例えば、発話者による「こっちだよ。」、「こっちよ。」、「そっちじゃないよ。」、「そこじゃないよ。」等の発話や、話しかけ先として認識された乗員による「私じゃないよ。」、「お父さんよ。」等の発話である。また、エージェント画像を呼び出す際の名称(ニックネーム)を繰り返すことがエージェント画像の顔向きに関する発話に含まれてもよい。また、エージェント制御部180は、乗員状態解析部156により車室内カメラ112の撮像結果が解釈された結果、乗員が手を振ったり、他の乗員に向かって指を指したりするジェスチャが検出された場合には、そのジェスチャの意味を解釈して話しかけ先の向きを異なる向きに変更するように制御してもよい。
また、エージェント制御部180は、音声入力部152により認識されたエージェントの呼び出し時の音圧と比較して、次に音声入力部152が認識した乗員の声の音圧の上昇率が所定の割合以上である場合には、乗員がエージェントに対して注意喚起を促していたり、乗員の苛立ちの感情が込められていたりするものと解釈し、エージェント画像の顔向きを変更するように制御してもよい。
エージェント制御部180は、エージェント画像に話しかけ先を変更させる場合、変更先が自然言語処理部240により解釈された特定の方向が存在する場合にはその方向を採用する。自然言語処理部240により解釈された特定の方向とは、例えば、発話者による「こっちだよ。」等の発話を検出した乗員の着座する方向である。
エージェント制御部180は、特定の方向が存在しない場合であり、且つ、エージェント画像に話しかけ先を変更させる場合、エージェント画像に当初の話しかけ先の反対を向くように変更してもよいし、話しかけ先とは異なる任意の乗員の方を向くように変更してもよい。また、エージェント制御部180は、エージェント画像の顔向きを変更した後、さらに乗員状態解析部156によりエージェント画像の顔向きに関する解釈が行われた場合、エージェント画像の顔向きを無指向としてもよい。エージェント画像の顔向きを無指向にするとは、例えば、運転席ST1と助手席ST2の中央付近CMの方を向くようにすることや、車両Mの車室天井方向を向くようにすること、視線を一点に集中させずに車室内を見回すことである。
なお、エージェント制御部180は、乗員P1が発話者であった場合でも、乗員P2がエージェント画像の顔向きを訂正する反応をせずエージェント画像との対話を開始した場合には、乗員P2を話しかけ先として対応を継続する。
エージェント制御部180は、乗員状態解析部156により助手席ST2に着座する乗員の反応を解析した結果、助手席ST2に着座する乗員が話しかけ先であると認識した場合には対話生成部250により生成された「ご用ですか?」等の応答音声を音声生成部164に再生させる。エージェント制御部180は、乗員状態解析部156により助手席ST2に着座する乗員の反応を解析した結果、運転席ST1に着座する乗員が話しかけ先であると認識した場合には、エージェントの顔向きを変更させた後、対話生成部250により生成された応答音声を音声生成部164に再生させる。
図7は、エージェント画像EI1が話しかけ先を変更する様子を模式的に示す図である。エージェント制御部180は、乗員状態解析部156により、運転席ST1に着座する乗員P1と助手席ST2に着座する乗員P2のいずれかの乗員によりエージェント画像EI1の表示を要求されたが、どちらの乗員が発話者であるかを特定できない場合に、初期表示として図7(a)に示すように、話しかけ先として乗員P2を設定し、エージェント画像EI1の顔向きを、助手席ST2を含む領域Taの方に向けて表示する。
エージェント制御部180は、乗員P1による「こっちだよ。」という発言を顔向きに関する発言であると解釈し、図7(b)に示すように話しかけ先を乗員P1に変更すると決定し、エージェント画像EI1の顔向きを、運転席ST1を含む領域Taの方へ変更する。
なお、エージェント制御部180は、エージェント画像EI1の顔向きを変更する際に、エージェント画像EI1の表示位置も併せて変更してもよい。例えば、乗員P1が操舵中である場合、図7(a)および図7(b)に示すように表示部116Aの左端部にエージェント画像EI1を表示した状態では、エージェント画像EI1を視認し辛く感じる可能性がある。そこで、図7(c)に示すように、エージェント画像EI1を表示する位置を表示部116Aの中央付近に移動させてもよい。
[処理フロー1]
以下、エージェント制御部180による一連の処理の流れを、フローチャートを用いて説明する。図8は、エージェント装置100による顔向きに関する発言を検知する際の処理の流れの一例を示すフローチャートである。
以下、エージェント制御部180による一連の処理の流れを、フローチャートを用いて説明する。図8は、エージェント装置100による顔向きに関する発言を検知する際の処理の流れの一例を示すフローチャートである。
まず、自然言語処理部240は、乗員によるエージェント画像を呼び出す発話を認識する(ステップS100)。次に、乗員状態解析部156は、自然言語処理部240が認識した音声の発話者を特定できるか否かを判別する(ステップS102)。発話者が特定できる場合、エージェント制御部180は、エージェント画像の顔向きを発話者に向けて表示するよう制御する(ステップS104)。発話者が特定できない場合、エージェント制御部180は、エージェント画像の顔向きを助手席に着座する乗員に向けて表示するよう制御する(ステップS106)。
ステップS104またはステップS106の処理の後、自然言語処理部240は、乗員によるエージェント画像の顔向きに関する発言を認識したか否かを判別する(ステップS108)。顔向きに関する発言を認識しなかった場合、話しかけ先に対する応対処理を行う(ステップS110)。顔向きに関する発言を認識した場合、エージェント制御部180は、エージェント画像の話しかけ先を変更し(ステップS112)、ステップS110の処理を行う。以上、本フローチャートの処理の説明を終了する。
[乗員の表情変化に伴うエージェント画像の顔向きの変更]
エージェント制御部180は、エージェント画像の初期表示の後、エージェントが発言する前の段階において、車室内カメラ112の撮像画像を乗員状態解析部156が解析し、乗員の表情変化を検出した場合、エージェント画像の顔向きが、当初の向きとは異なる方向を向くように表示部116を制御する。エージェント制御部180は、例えば、車室内カメラ112により撮像された、話しかけ先の乗員のネガティブな表情変化を検知した場合にも同様に、エージェント画像の顔向きを変更させる。ネガティブな表情変化とは、例えば、驚き、苛立ち、困惑に分類される表情になることである。なお、乗員がエージェント画像表示前から該当する表情をしていた場合には、エージェント制御部180はネガティブな表情変化があったとは検知しない。
エージェント制御部180は、エージェント画像の初期表示の後、エージェントが発言する前の段階において、車室内カメラ112の撮像画像を乗員状態解析部156が解析し、乗員の表情変化を検出した場合、エージェント画像の顔向きが、当初の向きとは異なる方向を向くように表示部116を制御する。エージェント制御部180は、例えば、車室内カメラ112により撮像された、話しかけ先の乗員のネガティブな表情変化を検知した場合にも同様に、エージェント画像の顔向きを変更させる。ネガティブな表情変化とは、例えば、驚き、苛立ち、困惑に分類される表情になることである。なお、乗員がエージェント画像表示前から該当する表情をしていた場合には、エージェント制御部180はネガティブな表情変化があったとは検知しない。
[処理フロー2]
図9は、エージェント装置100による表情変化を検知する際の処理の流れの一例を示すフローチャートである。なお、図9に示すフローチャートのステップS200〜S206、S210〜S212は、図8に示すフローチャートのステップS100〜S106、S110〜S112に対応する。
図9は、エージェント装置100による表情変化を検知する際の処理の流れの一例を示すフローチャートである。なお、図9に示すフローチャートのステップS200〜S206、S210〜S212は、図8に示すフローチャートのステップS100〜S106、S110〜S112に対応する。
まず、自然言語処理部240は、乗員によるエージェント画像を呼び出す発話を認識する(ステップS200)。次に、乗員状態解析部156は、自然言語処理部240が認識した音声の発話者を特定できるか否かを判別する(ステップS202)。発話者が特定できる場合、エージェント制御部180は、エージェント画像の顔向きを発話者に向けて表示するよう制御する(ステップS204)。発話者が特定できない場合、エージェント制御部180は、エージェント画像の顔向きを助手席に着座する乗員に向けて表示するよう制御する(ステップS206)。何れの場合でもエージェントは、まだ発話を行わない。
ステップS204またはステップS206の処理の後、乗員状態解析部156は、乗員の表情変化を認識したか否かを判別する(ステップS208)。乗員の表情変化を認識しなかった場合、話しかけ先に対する応対処理を行う(ステップS210)。乗員の表情変化を認識した場合、エージェント制御部180は、エージェント画像の話しかけ先を変更し(ステップS212)、ステップS210の処理を行う。以上、本フローチャートの処理の説明を終了する。
[発話者不明時のエージェント画像初期表示]
図10は、発話者不明時のエージェント画像EI1の初期表示位置を説明する図である。エージェント制御部180は、どの乗員が発話したのかを推定できなかった場合には、図10に示すように、表示部116Aの助手席側の端部から、車室内の乗員全員を話しかけ先として乗員全員を含む領域Taの方に向けてエージェント画像EI1を表示してもよい。また、助手席ST2に着座する乗員がおらず、且つ、後部座席ST3に着座する乗員P3がいる場合には、後部座席ST3の乗員P3が話しかけ先であるものとして領域Taの方に向けてエージェント画像EI1の顔向きを設定してもよい。
図10は、発話者不明時のエージェント画像EI1の初期表示位置を説明する図である。エージェント制御部180は、どの乗員が発話したのかを推定できなかった場合には、図10に示すように、表示部116Aの助手席側の端部から、車室内の乗員全員を話しかけ先として乗員全員を含む領域Taの方に向けてエージェント画像EI1を表示してもよい。また、助手席ST2に着座する乗員がおらず、且つ、後部座席ST3に着座する乗員P3がいる場合には、後部座席ST3の乗員P3が話しかけ先であるものとして領域Taの方に向けてエージェント画像EI1の顔向きを設定してもよい。
[処理フロー3]
図11は、エージェント装置100による一連の処理の流れの一例を示すフローチャートである。なお、図11に示すフローチャートのステップS300〜S302、S310およびS312は、図8に示すフローチャートのステップS100〜S102、S108およびS312に対応し、図11に示すフローチャートのステップS308は、図9に示すフローチャートのステップS208に対応する。
図11は、エージェント装置100による一連の処理の流れの一例を示すフローチャートである。なお、図11に示すフローチャートのステップS300〜S302、S310およびS312は、図8に示すフローチャートのステップS100〜S102、S108およびS312に対応し、図11に示すフローチャートのステップS308は、図9に示すフローチャートのステップS208に対応する。
まず、自然言語処理部240は、乗員によるエージェント画像を呼び出す発話を認識する(ステップS300)。次に、乗員状態解析部156は、自然言語処理部240が認識した音声の発話者を特定できるか否かを判別する(ステップS302)。発話者が特定できる場合、エージェント制御部180は、エージェント画像を発話者に近い一部領域に表示させるよう制御し、且つ、エージェント画像の顔向きを発話者に向けて表示させるよう制御する(ステップS304)。発話者が特定できない場合、エージェント制御部180は、エージェント画像を表示部116の端部に表示させる様に制御し(図10では、助手席側の端部に表示させるよう制御している)、且つ、エージェント画像の顔向きを乗員全体に向けて表示させるよう制御する(ステップS306)。
ステップS304またはステップS306の処理の後、乗員状態解析部156は、乗員の表情変化を認識したか否かを判別する(ステップS308)。乗員の表情変化を認識しなかった場合、自然言語処理部240は、乗員によるエージェント画像の顔向きに関する発言を認識したか否かを判別する(ステップS310)。顔向きに関する発言を認識しなかった場合、エージェント制御部180は、話しかけ先に対する応対処理を行う(ステップS312)。ステップS308において乗員の表情変化を認識した場合、またはステップS310において顔向きに関する発言を認識した場合、エージェント制御部180は、エージェント画像の話しかけ先を変更し(ステップS314)、ステップS312の処理を行う。以上、本フローチャートの処理の説明を終了する。
以上説明した実施形態によれば、車室内の音声を収集するマイク114と、車室内に音声を出力するスピーカ118と、マイク114により収集された音声の意味を解釈する乗員状態解析部156と、車室内に設けられる表示部116と、乗員に対して話しかける態様のエージェント画像を表示部116の一部領域に表示させると共に、音声をスピーカ118に出力させるエージェント制御部180と、を備え、エージェント制御部180は、表示部116にエージェント画像が表示された後、顔向きに関する発話が乗員状態解析部156により解釈された場合、エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更することにより、エージェントに自然な挙動を行わせることができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1…エージェントシステム、100…エージェント装置、110…通信装置、112…車室内カメラ、114…マイク、116…表示部、118…スピーカ、120…操作部、130…ナビゲーション装置、132…地図情報、150…エージェント制御装置、152…音声入力部、154…車両状態解析部、156…乗員状態解析部、160…提示制御部、162…画像生成部、164…音声生成部、180…エージェント制御部、200…サーバ装置、210…通信部、220…音声区間検出部、230…音声認識部、240…自然言語処理部、250…対話生成部
Claims (9)
- 車室内の音声を収集するマイクと、
前記車室内に音声を出力するスピーカと、
前記マイクにより収集された音声の意味を解釈する解釈部と、
前記車室内に設けられる表示部と、
乗員に対して話しかける態様のエージェント画像を、前記表示部の一部領域に顔向きが認識可能な態様で表示させると共に、音声を前記スピーカに出力させるエージェント制御部と、を備え、
前記エージェント制御部は、
前記表示部に前記エージェント画像が表示された後、顔向きに関する発話が前記解釈部により解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、
エージェント装置。 - 複数の前記スピーカを備え、
前記複数のスピーカの出力の組み合わせで音像定位可能であり、
前記エージェント制御部は、前記エージェント画像を、複数の乗員のそれぞれの近傍に亘って存在する一以上の前記表示部のうち、前記話しかけ先に近い一部領域に表示させ、前記スピーカを制御して前記エージェント画像の表示位置に音像を定位させる、
請求項1に記載のエージェント装置。 - 前記エージェント制御部は、運転者でない前記乗員を優先的に前記話しかけ先として選択する、
請求項2に記載のエージェント装置。 - 優先的に話しかけ先として選択する前記乗員は、前記車室内の助手席に着座する乗員である、
請求項3に記載のエージェント装置。 - 前記エージェント制御部は、前記エージェント画像の顔向きを変更した後、さらに前記解釈部により前記エージェント画像の顔向きに関する前記解釈が行われた場合、前記顔向きを無指向とする、
請求項2から4のいずれか1項に記載のエージェント装置。 - 前記エージェント制御部は、前記解釈部により前記エージェント画像の名称の入力を繰り返し受け付けたと解釈された場合、前記顔向きを変更する、
請求項1から5のいずれか一項に記載のエージェント装置。 - 前記エージェント制御部は、前記マイクが受け付けた前記音声の音圧の上昇率が所定の割合以上である場合、前記顔向きを変更する、
請求項1から6のいずれか一項に記載のエージェント装置。 - コンピュータが、
車室内の音声を収集し、
前記車室内に音声を出力し、
収集された音声の意味を解釈し、
乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、
前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更する、
エージェント提示方法。 - コンピュータに、
車室内の音声を収集させ、
前記車室内に音声を出力させ、
収集された音声の意味を解釈させ、
乗員に対して話しかける態様のエージェント画像を、顔向きが認識可能な態様で表示させると共に、前記音声を出力させ、
前記エージェント画像が表示された後、顔向きに関する発話が解釈された場合、前記エージェント画像の顔向きを、話しかけ先の前記乗員の向きとは異なる向きに変更させる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189708A JP2020060830A (ja) | 2018-10-05 | 2018-10-05 | エージェント装置、エージェント提示方法、およびプログラム |
US16/559,816 US11450316B2 (en) | 2018-10-05 | 2019-09-04 | Agent device, agent presenting method, and storage medium |
CN201910862314.5A CN111007968A (zh) | 2018-10-05 | 2019-09-11 | 智能体装置、智能体提示方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189708A JP2020060830A (ja) | 2018-10-05 | 2018-10-05 | エージェント装置、エージェント提示方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020060830A true JP2020060830A (ja) | 2020-04-16 |
Family
ID=70052643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189708A Pending JP2020060830A (ja) | 2018-10-05 | 2018-10-05 | エージェント装置、エージェント提示方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11450316B2 (ja) |
JP (1) | JP2020060830A (ja) |
CN (1) | CN111007968A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112078498A (zh) * | 2020-09-11 | 2020-12-15 | 广州小鹏汽车科技有限公司 | 一种车辆智能座舱的声音输出控制方法和智能座舱 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220396148A1 (en) * | 2021-06-15 | 2022-12-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | Dual-sided display for a vehicle |
US20220415321A1 (en) * | 2021-06-25 | 2022-12-29 | Samsung Electronics Co., Ltd. | Electronic device mounted in vehicle, and method of operating the same |
CN114023358B (zh) * | 2021-11-26 | 2023-07-18 | 掌阅科技股份有限公司 | 对话小说的音频生成方法、电子设备及存储介质 |
US20230168136A1 (en) * | 2021-11-29 | 2023-06-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Window-based object detection and/or identification |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6249720B1 (en) * | 1997-07-22 | 2001-06-19 | Kabushikikaisha Equos Research | Device mounted in vehicle |
GB0010034D0 (en) * | 2000-04-26 | 2000-06-14 | 20 20 Speech Limited | Human-machine interface apparatus |
DE112012006617B4 (de) * | 2012-06-25 | 2023-09-28 | Hyundai Motor Company | Bord-Informationsvorrichtung |
JP2017090611A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
JP6892264B2 (ja) | 2016-12-27 | 2021-06-23 | パイオニア株式会社 | 表示装置 |
JP7192222B2 (ja) * | 2018-03-08 | 2022-12-20 | トヨタ自動車株式会社 | 発話システム |
-
2018
- 2018-10-05 JP JP2018189708A patent/JP2020060830A/ja active Pending
-
2019
- 2019-09-04 US US16/559,816 patent/US11450316B2/en active Active
- 2019-09-11 CN CN201910862314.5A patent/CN111007968A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112078498A (zh) * | 2020-09-11 | 2020-12-15 | 广州小鹏汽车科技有限公司 | 一种车辆智能座舱的声音输出控制方法和智能座舱 |
Also Published As
Publication number | Publication date |
---|---|
US11450316B2 (en) | 2022-09-20 |
US20200111489A1 (en) | 2020-04-09 |
CN111007968A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
JP2020060830A (ja) | エージェント装置、エージェント提示方法、およびプログラム | |
US10994612B2 (en) | Agent system, agent control method, and storage medium | |
JP7340940B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
CN110968048B (zh) | 智能体装置、智能体控制方法以及存储介质 | |
JP7133029B2 (ja) | エージェント装置、エージェント制御方法、およびプログラム | |
CN111016824B (zh) | 交流支援***、交流支援方法及存储介质 | |
CN111667824A (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
JP2020060861A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
US20200286452A1 (en) | Agent device, agent device control method, and storage medium | |
CN111746435B (zh) | 信息提供装置、信息提供方法及存储介质 | |
JP7274404B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
CN111731320B (zh) | 智能体***、智能体服务器及其控制方法、存储介质 | |
JP2020060623A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
JP2020059401A (ja) | 車両制御装置、車両制御方法、プログラム | |
US11518399B2 (en) | Agent device, agent system, method for controlling agent device, and storage medium | |
CN111559317B (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
CN111724777A (zh) | 智能体装置、智能体装置的控制方法及存储介质 |