CN111261154A

CN111261154A - 智能体装置、智能体提示方法及存储介质

Info

Publication number: CN111261154A
Application number: CN201911097964.1A
Authority: CN
Inventors: 杉原大志; 田中亮介; 关口敦; 松浦侑纪; 远藤航; 相马英辅
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-11-14
Filing date: 2019-11-11
Publication date: 2020-06-09
Also published as: JP2020080503A; US20200152203A1; US11176948B2

Abstract

提供一种能够使智能体进行自然的行为的智能体装置、智能体提示方法及存储介质。智能体装置具备：显示部；话筒，其收集车室内的声音；多个扬声器，它们通过输出的组合而能够进行声像定位；以及智能体控制部，其使所述显示部显示智能体图像，并且使所述扬声器输出声音，所述智能体控制部识别所述车辆的乘客中的由所述话筒收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且使声像定位于所述智能体图像的显示位置。

Description

智能体装置、智能体提示方法及存储介质

技术领域

本发明涉及智能体装置、智能体提示方法及存储介质。

背景技术

以往，已知有如下的显示***，该显示***在驾驶员座的周围具备多个显示部，基于导航***的设定、影像等的条目的选择或播放等操作输入，在多个显示部中的预先设定的显示部进行导航***的地图及引导的显示、影像条目的显示等(例如，参照日本特开2018-103880号公报)。

然而，在以往的技术中，在乘客为多名的情况下，基于操作输入得到的显示结果有可能不显示于对于进行了该操作的乘客而言容易视觉辨识的位置。其结果是，假设在将以往的技术应用于控制智能体图像的装置的情况下，智能体有可能做出不自然的行为。

发明内容

本发明的方案是考虑这样的情形而完成的，其目的之一在于提供一种能够使智能体进行自然的行为的智能体装置、智能体提示方法及存储介质。

本发明的智能体装置、智能体提示方法及存储介质采用了以下的结构。

(1)：本发明的一方案的智能体装置，其具备：显示部；话筒，其收集车室内的声音；多个扬声器，它们通过输出的组合而能够进行声像定位；以及智能体控制部，其使所述显示部显示智能体图像，并且使所述扬声器输出声音，所述智能体控制部识别车辆的乘客中的由所述话筒收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且使声像定位于所述智能体图像的显示位置。

(2)：在上述(1)的一方案中，所述显示部具有使2个以上的所述乘客识别到在与所述乘客自身对置的位置显示有智能体图像的程度的显示区域的大小。

(3)：在上述(2)的方案中，所述显示部包括与所述乘客分别对置的单独显示器，且/或包括在多个所述乘客的附近范围设置的显示器。

(4)：在上述(3)的方案中，所述智能体装置还具备对所述车室内进行拍摄的相机，所述智能体控制部通过对由所述相机拍摄到的包含所述乘客的图像的解析，来识别所述讲话者。

(5)：在上述(4)的方案中，所述智能体控制部通过对由所述相机拍摄到的包含所述乘客的图像的解析，来识别所述讲话者是正在朝向所述智能体图像讲话还是正在对其他所述乘客讲话。

(6)：在上述(5)的方案中，所述智能体控制部通过对由所述相机拍摄到的包括所述乘客的图像的解析来识别所述讲话者是正在朝向所述智能体图像讲话还是正在对其他所述乘客讲话。

(7)：在上述(5)或(6)的方案中，所述智能体控制部基于由所述话筒收集到的所述声音的成分解析的评价，来识别是否为针对所述智能体图像的讲话。

(8)：在上述(5)～(7)中任一方案中，所述智能体控制部在所述声音所表示的内容与驾驶操作相关的情况下，识别为是驾驶员发出的针对所述智能体图像的讲话。

(9)：在上述(1)～(8)中任一方案中，所述智能体控制部在无法判定所述讲话者的情况下，使所述声像的定位位置为无指向。

(10)：本发明的一方案的智能体提示方法，包括：收集车室内的声音；使显示部显示智能体图像，并且使通过输出的组合而能够进行声像定位的多个扬声器输出声音；以及识别车辆的乘客中的被收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且将声像定位于所述智能体图像的显示位置。

(11)：本发明的一方案的存储介质，存储有如下程序，所述程序使计算机进行如下处理：收集车室内的声音；使显示部显示智能体图像，并且使通过输出的组合而能够进行声像定位的多个扬声器输出声音；以及识别车辆的乘客中的被收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且将声像定位于所述智能体图像的显示位置。

根据(1)～(11)的方案，能够使智能体进行自然的行为。

附图说明

图1是包括实施方式的智能体装置的智能体***的结构图。

图2是示意性地示出设置于车辆的显示部及扬声器的图。

图3是用于说明后部座位附近的扬声器与显示部的位置的图。

图4是用于说明使声像定位的位置移动的情形的图。

图5是示出显示部中的智能体图像的显示例的图。

图6是说明车辆的显示部与乘客的就座位置的位置关系的图。

图7是示意性地示出变更智能体图像搭话目标的情形的图。

图8是示出由智能体装置检测与面部朝向相关的发言时的处理的流程的一例的流程图。

图9是示出由智能体装置检测表情变化时的处理的流程的一例的流程图。

图10是说明讲话者不明时的智能体图像的初始显示位置的图。

图11是示出由智能体装置进行的一系列处理的流程的一例的流程图。

具体实施方式

以下，参照附图，对本发明的智能体装置、智能体提示方法及程序的实施方式进行说明。以下，作为智能体装置的一例，对搭载于车辆并具备对话型智能体功能的智能体装置进行说明。所谓智能体装置，例如是一边与车辆的乘客对话一边应对乘客的要求而进行各种信息提供，进行车辆内的设备的控制的装置。智能体装置也可以根据乘客的表情、声音的腔调来判断乘客的状态从而进行驾驶支援，或者学习乘客的生活方式、偏好而进行与状况相应的备选项的提议。智能体装置为了使乘客视觉辨识对话者而例如使拟人化的动物、形象等图像(以下，称作智能体图像)显示于显示部。智能体图像例如至少包括由观看者识别表情、面部朝向的程度的面部图像。例如，智能体图像在面部区域中呈现模仿眼睛、鼻子的部件，使得面部朝向基于面部区域中的部件的位置而被识别。智能体图像也可以通过包含由观看者立体地感受的三维空间中的头部图像而使得面部朝向被识别。智能体装置例如通过除了识别乘客的声音的声音识别处理(将声音文本化的处理)之外，还综合地利用自然语言功能(理解文本的构造、意思的处理)、对话控制处理、检索处理等来实现。这些处理的一部分或全部由AI(Artificial Intelligence)技术来实现。用于进行这些处理的结构的一部分或全部设置于能够与车辆通信的服务器装置等。

[整体结构]

图1是包括实施方式的智能体装置的智能体***1的结构图。智能体***1具备智能体装置100和服务器装置200。智能体装置100与服务器装置200例如通过互联网、WAN(Wide Area Network)、LAN(Local Area Network)等网络NW而以能够进行数据的收发的状态连接。服务器装置200能够进行与多个智能体装置100的通信，但是，以下，为了便于说明，设为与1个智能体装置100通信。

智能体装置100与车辆M的乘客进行对话，针对来自乘客的基于声音等的询问，向服务器装置200进行请求，将从服务器装置200得到的针对请求的回答以规定的输出形态提示给乘客。在以下的说明中，所谓乘客，例如设为就座于驾驶员座的乘客(以下，驾驶员)，但是，也可以除此之外(或取代此)是就座于副驾驶员座、后部座位的乘客(同乘者)。

智能体装置100例如具备通信装置110、车室内相机112、话筒114、显示部116、扬声器118、操作部120、导航装置130、智能体控制装置150。这些装置、设备通过CAN(ControllerArea Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。图1所示的结构终归只是一例，既可以省略结构的一部分，也可以还追加别的结构。

通信装置110例如利用蜂窝网、Wi-Fi网、Bluetooth(注册商标)、DSRC(DedicatedShort Range Communication)等，经由网络NW而与其他车辆、服务器装置200通信。

车室内相机112例如拍摄包括就座于在车辆M的车室内设置的座椅的乘客的面部的图像。车室内相机112例如是利用了CCD(Charge Coupled Device)、CMOS(ComplementaryMetal Oxide Semiconductor)等固体摄像元件的数码相机。车室内相机112例如在规定的时机对乘客进行拍摄。车室内相机112的拍摄图像被向智能体控制装置150输出。

话筒114是收集车室内的声音的声音输入装置。例如，话筒114设置于转向盘。话筒114设置于乘客就座于车室内的座椅时的前方附近。例如，话筒114设置于地图灯附近、转向盘、仪表板或座椅。话筒114也可以分散设置于2个部位以上。

显示部116设置于就座于车室内的座椅的乘客的前方附近，具有至少使就座于驾驶员座或副驾驶员座的乘客识别到在与自身对置的位置显示有智能体图像的程度的显示区域的大小。扬声器118设置于车室内的座椅附近或显示部116附近。显示部116及扬声器118可以在车室内设置多个。

图2是示意性地示出设置于车辆M的显示部及扬声器的图。在图2的车室内设置有显示部116A～116D和扬声器118A～118F。显示部116A例如是HUD(Head-Up Display)装置。HUD装置是使图像重叠于风景而被视觉辨识的装置，作为一例，是通过向车辆M的前风窗玻璃、组合器投射包含图像的光而使乘客视觉辨识虚像的装置。对基于HUD装置的图像进行视觉辨识的对象的乘客主要是就座于驾驶员或副驾驶员座的乘客，但是，也可以是就座于后部座位的乘客。显示部116A例如在就座于驾驶员座ST1的乘客及就座于副驾驶员座ST2的乘客的附近范围设置。显示部116A例如也可以以不遮挡驾驶员的视野的程度设定于前风窗玻璃的下方区域。显示部116B显示与由导航装置130执行的导航处理对应的图像、其他图像等。

显示部116B设置于仪表板IP中的驾驶员座(例如离转向盘最近的座位)的正面附近，设置于乘客能够从转向盘的间隙或越过转向盘视觉辨识的位置。显示部116B例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示装置等。在显示部116B例如显示车辆M的速度、发动机转速、燃料残余量、散热器水温、行驶距离、其他信息的图像。

显示部116C设置于仪表板IP的中央附近。显示部116C例如与显示部116B同样，是LCD、有机EL显示装置等。显示部116C例如显示与由导航装置130执行的导航处理对应的图像、其他图像等。显示部116C也可以显示电视节目，播放DVD，显示下载的电影等的条目。

显示部116D设置于仪表板IP中的副驾驶员座(驾驶员座的旁边的座位)的正面附近。在显示部116D显示电视节目，或者播放DVD，或者显示下载的电影等的条目。也可以在车室内设置有通过车外相机取得乘客通过车辆M的侧部后视镜能够视觉辨识的信息并显示所取得的信息的显示部116。

在车辆M中，也可以在后部座位附近设置有显示部116。图3是用于说明后部座位附近的扬声器与显示部的位置的图。显示部116E及显示部116F是例如以与后部座位ST3的乘客分别对置的方式设置于驾驶员座ST1及副驾驶员座ST2的座椅背面、头枕附近的单独显示器。在话筒114分散设置于2个部位以上的情况下，也可以设置于显示部116E及显示部116F的设置部位附近。

扬声器118A及扬声器118B例如设置于车辆M的左右的前方的窗柱(所谓的A柱)。扬声器118C设置于驾驶员座侧的车门的下部，扬声器118D设置于副驾驶员座侧的车门的下部。扬声器118E设置于显示部116C附近，即仪表板IP的中央附近。扬声器118F设置于车室内的天棚的中央部附近。

也可以在车辆M中在后部座位附近设置有扬声器。在图3的例子中，除了图2所示的扬声器118A～118F之外，还在设置于驾驶员座ST1和副驾驶员座ST2的后方的后部座位ST3附近设置有扬声器118G及扬声器118H。具体而言，扬声器118G及扬声器118H设置于左右的方向车门的下部。扬声器118既可以设置于在车辆M的前方车门与后方车门之间设置的窗柱(所谓的B柱)，也可以设置于后部座位的方向。

操作部120接受乘客手动的操作。操作部120例如具备开关、按钮、按键等。操作部120例如设置于转向盘、仪表板。操作部120也可以作为触摸面板而与显示部116一体构成。

导航装置130例如基于从GNSS(Global Navigation Satellite System)卫星接收到的信号，确定车辆M的位置。导航装置130参照地图信息132来决定从确定出的车辆M的位置(或者所输入的任意的位置)到由乘客使用操作部120、显示部116输入的目的地为止的路径(以下，地图上路径)。地图信息132例如是利用表示道路的线路和由线路连接的节点来表现道路形状的信息。地图信息132也可以包括道路的曲率、POI(Point Of Interest)信息等。

导航装置130也可以基于地图上路径而进行使用了显示部116、扬声器118的路径引导。导航装置130例如也可以通过乘客所持有的智能手机、平板终端等终端装置的功能来实现。导航装置130也可以经由通信装置110向服务器装置200或导航服务器发送当前位置和目的地，从服务器装置200、导航服务器取得与地图上路径同等的路径。导航装置130也可以是智能体控制装置150的一功能。

[智能体控制装置]

智能体控制装置150例如具备声音输入部152、车辆状态解析部154、乘客状态解析部156、提示控制部160、图像生成部162、声音生成部164、应用调出部166、存储部170、智能体控制部180。这些构成要素例如通过由CPU(Central Processing Unit)等计算机处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以由LSI(Large ScaleIntegration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等硬件(电路部；包括circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部170，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部170。

声音输入部152接受基于话筒114的声音的输入。声音输入部152将接受到的声音(声音流)经由通信装置110向服务器装置200发送。

车辆状态解析部154例如基于由导航装置130确定出的车辆M的位置、由搭载于车辆的车辆传感器取得的速度、加速度、绕铅垂轴的角速度、车辆M的朝向等，解析车辆的状态。车辆M的状态例如包括车辆M是处于停止还是处于行驶等的状态、是否正在进行左右转弯、车道变更等的状态。

乘客状态解析部156进行对由车室内相机112拍摄到的图像的解析处理，通过提取人物形状、面部形状等特征信息来取得与就座于车室内的座椅的乘客的位置、乘客的行为、视线、表情变化相关的信息。乘客的行为例如包括乘客的面部的朝向、身体的姿态。乘客状态解析部156也可以通过设置于座椅的压力传感器及其他检测传感器来检测就座于座椅的乘客的位置。

乘客状态解析部156解析由话筒114收集到的声音，根据解析出的声音的腔调可以判断乘客的状态，也可以推定乘客的感情。在乘客为多名的情况下，乘客状态解析部156既可以解析车室内相机112的拍摄结果来确定哪个乘客是讲话者，也可以基于车室内相机112的拍摄结果和由话筒114收集到的声音的解析结果来确定哪个乘客是讲话者。乘客状态解析部156也可以根据车室内相机112的拍摄结果，推定确定出的讲话者的视线的目标、注意所朝向的目标，来识别是正在朝向智能体图像讲话还是正在对其他乘客讲话。关于讲话者的讲话对象的推定方法后述。

提示控制部160基于针对从声音输入部152发送到服务器装置200的声音的回答信息(例如，由服务器装置200生成的对话信息)，控制经由智能体图像向乘客提示的内容。向乘客提示的内容例如包括使显示部116输出的显示内容、由扬声器118输出的声音内容、执行实现车辆内的各功能的应用程序(以下，称作应用)的内容。

提示控制部160也可以基于由乘客状态解析部156解析出的乘客的状态来控制向乘客提示的内容。提示控制部160也可以预先将来自乘客的输入信息、向乘客提示过的内容的履历信息存储于存储部170，根据所存储的履历信息学习乘客的生活方式、偏好，进行与状况相应的提示内容的控制。

图像生成部162生成智能体图像，并且设定显示所生成的智能体图像的显示部116及画面上的显示位置，使智能体图像显示于所设定的显示部116的显示位置。例如，图像生成部162也可以基于声音的内容、回答信息的内容，生成使智能体的表情变化了的智能体图像。例如，图像生成部162在来自乘客的请求不明确而拜托再输入请求的情况下，生成看起来悲伤的表情的智能体的图像，在被输入了“谢谢”等声音的情况下，生成看起来高兴的表情的智能体图像。图像生成部162生成用于将回答信息显示于显示部116的图像(以下，称作回答图像)，使显示部116显示所生成的回答图像。

声音生成部164生成向乘客输出的对话用的声音。例如，声音生成部164使用一个以上的扬声器118，生成用于使声像定位于与智能体图像的显示位置对应的位置的声音。所谓声像定位，例如是通过调节从扬声器118输出并向乘客的左右耳传递的声音的大小，确定乘客感到的声源的空间上的位置。声像例如基于声源原本持有的声特性、车室内环境的信息、头部传递函数(HRTF；Head-related transfer function)而确定。声音生成部164利用这样的原理，能够使声像定位于规定的位置。

图4是用于说明使声像定位的位置移动的情形的图。在图4中，为了简化说明，例示了使用上述的扬声器118C～118E使声像定位。在图4的例子中，在声音生成部164与扬声器118C～118E之间具备AMP164A和混声器164B。AMP164A调整通过由声音生成部164进行的控制而从扬声器118C～118E分别输出的声音的大小。例如，AMP164能够在相对于成为基准的声音的大小(最大强度)而言0～100％之间调节声音。混声器164B具备将被输入的多个声音合成的功能。混声器164B具备分配向扬声器118C～118E分别输出的声音的功能。

例如，在使声像定位于图4所示的空间位置MP1的情况下，在AMP164A基于由声音生成部164生成的声音而针对规定的输出对象的声音从扬声器118C进行最大强度的5％的输出，从扬声器118D进行最大强度的80％的输出，且从扬声器118E进行最大强度的15％的输出的情况下，从乘客P1的位置感到声像定位于图4所示的空间位置MP1。

在AMP164A针对输出对象的声音从扬声器118C进行最大强度的45％的输出，从扬声器118D进行最大强度的45％的输出，且从扬声器118E进行最大强度的10％的输出的情况下，从乘客P1的位置能够感到声像定位于图4所示的空间位置MP2。这样，通过调整从立体地设置于车室内的多个扬声器中的被选择的一个以上的扬声器分别输出的声音的大小，能够使声像定位的位置变化。

应用调出部166从存储部170调出由提示控制部160选择的应用，通过在智能体控制部180执行所调出的应用，实现该应用的功能。例如，在由智能体控制部180执行了电话应用172的情况下，经由通信装置110而与具备外部的通话功能的终端进行通信，使用话筒114、扬声器118，实现与终端持有者的通话。在由智能体控制部180执行了收音机应用174的情况下，经由通信装置110而从广播电台取得以乘客指定的频率发送的声音信息，实现将所取得的声音信息从扬声器118输出的功能。在由智能体控制部180执行了导航应用176(未图示)的情况下，实现与导航装置130协作的路径引导功能等。

存储部170例如通过HDD、闪存器、EEPROM(Electrically Erasable ProgrammableRead Only Memory)、ROM(Read Only Memory)或RAM(Random Access Memory)等来实现。存储部170例如保存电话应用172、收音机应用174、导航应用176等由处理器读出并执行的程序及其他信息等。

智能体控制部180针对智能体控制装置150的各功能部控制执行及停止。智能体控制部180例如通过API(Application Programming Interface)接受来自各功能部的要求，选择执行基于接受到的要求的处理的功能部，经由API使所选择的功能部执行处理。

[服务器装置]

服务器装置200例如具备通信部210、声音区间检测部220、声音识别部230、自然语言处理部240、对话生成部250、存储部260。这些构成要素例如通过由CPU等计算机处理器执行程序(软件)来实现。这些构成要素中的一部分或全部既可以由LSI、ASIC、FPGA、GPU等硬件(电路部；包括circuitry)来实现，也可以通过软件与硬件的协同配合来实现。程序既可以预先保存于存储部170的HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置)，也可以保存于DVD、CD-ROM等可装卸的存储介质并通过将存储介质装配于驱动装置而安装于存储部170。

通信部210例如利用蜂窝网、Wi-Fi网、Bluetooth、DSRC等，经由网络NW而与智能体装置100通信。通信部210接收从智能体装置100发送的声音流。通信部210将由对话生成部250生成的声音、文字信息、图像等回答信息向智能体装置100发送。

声音区间检测部220根据从智能体装置100发送的声音流检测声音区间。例如，声音区间检测部220例如基于声音流中的声音波形的振幅和零交叉来检测声音区间。声音区间检测部220也可以通过基于混合高斯分布模型(GMM；Gaussian mixture model)的帧单位的声音·非声音识别，来进行区间检测，还可以通过与预先存储于存储部260等的用于检测声音区间的数据库的匹配处理来检测区间检测。

声音识别部230识别基于声音区间检测部220得到的声音区间中的声音，将声音文本化为文字信息。声音识别部230也可以根据声音确定讲话者的特征。讲话者的特征例如包括性别、年龄、是否是驾驶员、是否是同乘者的信息。声音识别部230可以与在存储于存储部260的个人资料264中存储的个人的声音的特征信息进行对照，来确定个人。

声音识别部230也可以基于乘客如何称呼其他乘客或如何被其他乘客称呼，来确定特征信息。声音识别部230例如在识别到就座于副驾驶员座的乘客称呼就座于驾驶员座的乘客为“爸爸”的情况下，识别为乘客的“爸爸”这一称呼指的是驾驶员。该功能也可以由智能体控制装置150的智能体控制部180具备。

声音识别部230也可以在话筒114由多个收音装置构成、且话筒114分别分散设置的情况下，由声音输入部152生成各个话筒114收集到的声音信号，基于该信号差异，推定讲话者与话筒114的相对的位置，生成仅将讲话者的声音特写(close-up)了的声音信号，由此提高声音识别精度。

自然语言处理部240执行针对由声音识别部230文本化了的文字信息的自然语言处理，解释文字信息的意思。自然语言处理包括词素解析、句法解析、意思解析、上下文解析等。词素解析例如将文字信息分割为具有意思的最小的表达要素的单位，解析每个分割出来的单位(词素)的词类等。

句法解析例如基于通过词素解析而得到的词素，解析句子的构造。意思解析例如基于通过句法解析而得到的句法，判别具有意思的总结。上下文解析例如以句子单位、上下文单位来解释意思。

自然语言处理部240生成与解释出的意思对应的指令。例如，作为解释结果，解释出了“距东京站几公里？”、“距东京站行驶多远？”等意思的情况下，自然语言处理部240生成置换为标准文字信息“距东京站的距离是？”的指令。由此，即便是存在文字差异的情况下也能够容易取得回答信息。

自然语言处理部240例如也可以使用利用了概率的机械学习处理等人工智能处理来解释文字信息的意思，生成基于解释结果的指令。自然语言处理部240使用所生成的指令，参照存储于存储部260的回答信息262的指令，取得与相符的指令对应的回答信息。

对话生成部250基于由自然语言处理部240取得的内容生成用于与乘客进行对话的声音。对话生成部250将所生成的声音流、文字信息、图像等回答信息从通信部210向智能体装置100发送。

存储部260例如通过HDD、闪存器、EEPROM、ROM或RAM等来实现。存储部260例如保存回答信息262、个人资料264及其他信息等。个人资料264例如是将声音的特征信息、性别、年龄、喜欢的流派、过去的服务器装置200的使用履历等与个人的识别信息建立了对应关系的信息。

[智能体图像的初始显示]

图5是示出由显示部116A显示的智能体图像EI1的一例的图。如前所述，智能体图像包括由观看者识别表情、面部朝向的程度的面部图像。在图5所示的例子中，示出了以能够由乘客识别为朝向车室中央方向的方式显示智能体图像EI1的情形。

智能体控制部180在乘客状态解析部156对由声音输入部152检测到的乘客的讲话进行解析的结果是解析出包含调出智能体的单词或短语的情况下，首先，在智能体应答乘客的讲话之前，将乘客中的至少1人设定为搭话目标，在使面部朝向该搭话目标的形态下，使智能体图像以能够识别面部朝向的形态显示于显示部116A的离搭话目标的乘客近的一部分区域，而且使声像定位于该显示位置。

智能体控制部180在根据话筒114的集音结果能够确定讲话者的方向的情况下，将该确定出的讲话者的方向设为搭话目标。智能体控制部180在根据话筒114的集音结果没能确定讲话者的方向的情况下，可以根据车室内相机112的拍摄结果来确定讲话者的方向。智能体控制部180在由声音识别部230成功确定了讲话者的性别、年代的情况下，可以基于该识别结果和车室内相机112的拍摄结果来确定讲话者。

智能体控制部180在乘客仅是就座于驾驶员座ST1的乘客的情况下，将讲话者识别为就座于驾驶员座ST1的乘客。乘客状态解析部156在无法确定讲话者的情况下，可以优先选择就座于驾驶员座ST1的乘客以外作为搭话目标，在存在就座于副驾驶员座ST2的乘客的情况下，也可以优先选择该乘客作为搭话目标。由此，能够将就座于副驾驶员座ST2的乘客的反应作为参考，判定是否需要变更搭话目标。就座于驾驶员座ST1的乘客被认为为了驾驶操作而朝向车辆M的行驶方向等的时间长从而注视智能体图像的可能性低。即，关于就座于驾驶员座ST1的乘客，有可能无法充分得到针对是否有智能体图像的面部朝向正面对着的反应。于是，智能体控制部180优先选择就座于副驾驶员座ST2的乘客作为搭话目标。

图6是说明车辆M的显示部116与乘客的就座位置的位置关系的图。乘客状态解析部156在没能确定讲话者的方向的情况下，作为初始显示，使朝向任意的方向的智能体图像EI1显示。所谓任意的方向，例如是图6所示的区域Ta的方向。

[伴随于乘客的讲话产生的智能体图像的显示形态的变更]

智能体控制部180在智能体图像的初始显示之后，在由乘客状态解析部156检测到与乘客的智能体图像的面部朝向相关的讲话的情况下，控制显示部116，使得智能体图像的面部朝向朝与搭话目标的乘客的朝向不同的方向。

所谓与智能体图像的面部朝向相关的讲话，例如是由讲话者发出的“是这里哦。”、“这里哦。”、“不是那里哦。”、“不是那边哦。”等讲话、由作为搭话目标而被识别到的乘客发出的“不是我哦。”、“是爸爸哦。”等讲话。重复调出智能体图像时的名称(昵称)的情况也可以包含于与智能体图像的面部朝向相关的讲话。智能体控制部180也可以在由乘客状态解析部156对车室内相机112的拍摄结果进行解释的结果是检测到乘客挥手、朝向其他乘客指手指的手势的情况下，解释该手势的意思并进行控制以将搭话目标的朝向变更为不同的朝向。

智能体控制部180也可以与由声音输入部152识别到的智能体的调出时的声压进行比较，在接下来声音输入部152识别到的乘客的声音的声压的上升率为规定的比例以上的情况下，解释为乘客催促智能体引起注意，或者含有乘客焦躁的感情，并进行控制以变更智能体图像的面部朝向。

智能体控制部180在使智能体图像变更搭话目标的情况下，在变更目的地存在由自然语言处理部240解释出的特定的方向的情况下，采用该方向。所谓由自然语言处理部240解释出的特定的方向，例如是检测到由讲话者发出的“是这里哦。”等讲话的乘客就座的方向。

智能体控制部180在不存在特定的方向且使智能体图像变更搭话目标的情况下，既可以使智能体图像以朝向当初的搭话目标的相反方向的方式变更，也可以以朝向与搭话目标不同的任意的乘客那一方的方式变更。智能体控制部180也可以在变更智能体图像的面部朝向之后进一步由乘客状态解析部156进行了与智能体图像的面部朝向相关的解释的情况下，使智能体图像的面部朝向为无指向。所谓使智能体图像的面部朝向为无指向，例如是设为朝向驾驶员座ST1与副驾驶员座ST2的中央附近CM那一方、设为朝向车辆M的车室天棚方向、设为不使视线集中于一点而巡视车室内。

即便乘客P1是讲话者的情况下，在乘客P2不作出订正智能体图像的面部朝向的反应而开始了与智能体图像的对话的情况下，智能体控制部180也将乘客P2作为搭话目标而继续应对。

智能体控制部180在由乘客状态解析部156对就座于副驾驶员座ST2的乘客的反应进行解析的结果是识别为就座于副驾驶员座ST2的乘客是搭话目标的情况下，使声音生成部164播放由对话生成部250生成的“有什么事吗？”等应答声音。智能体控制部180在由乘客状态解析部156对就座于副驾驶员座ST2的乘客的反应进行解析的结果是识别为就座于驾驶员座ST1的乘客是搭话目标的情况下，在使智能体的面部朝向变更之后，使声音生成部164播放由对话生成部250生成的应答声音。

图7是示意性地示出智能体图像EI1变更搭话目标的情形的图。智能体控制部180在由就座于驾驶员座ST1的乘客P1和就座于副驾驶员座ST2的乘客P2中的某个乘客要求了智能体图像EI1的显示但是无法由乘客状态解析部156确定哪一个乘客是讲话者的情况下，作为初始显示，如图7(a)所示，设定乘客P2作为搭话目标，使智能体图像EI1的面部朝向朝向包含副驾驶员座ST2的区域Ta那一方显示。

智能体控制部180将基于乘客P1的“是这里哦。”这一发言解释为与面部朝向相关的发言，如图7(b)所示，决定将搭话目标变更为乘客P1，将智能体图像EI1的面部朝向向包含驾驶员座ST1的区域Ta那一方变更。

智能体控制部180在变更智能体图像EI1的面部朝向时，也可以一并变更智能体图像EI1的显示位置。例如，在乘客P1为驾驶操作中的情况下，在如图7(a)及图7(b)所示在显示部116A的左端部显示智能体图像EI1的状态下，有可能感到难以视觉辨识智能体图像EI1。于是，也可以如图7(c)所示，使显示智能体图像EI1的位置在应对的图中移动到显示部116A的中央附近。

[讲话者的讲话对象的推定方法]

以下，对基于智能体控制部180的讲话者的推定方法进行说明。智能体控制部180基于车室内相机112的拍摄结果和话筒114的集音结果，来推定讲话者和讲话者的搭话对象是智能体图像还是其他乘客。

智能体控制部180根据车室内相机112的拍摄结果解析各乘客的面部的位置和面部的朝向，确定乘客中的处于张嘴的情形的乘客。智能体控制部180通过一并解析由声音识别部230识别到的话筒114的集音结果，推定处于张嘴的情形的乘客中的哪一个乘客是讲话者。

接着，智能体控制部180推定讲话者的搭话对象是智能体图像还是其他乘客。智能体控制部180在讲话者是就座于驾驶员座ST1的乘客的情况下和是除此以外的乘客的情况下，既可以采用相同的推定方法，也可以采用不同的推定方法。

智能体控制部180在讲话者是就座于驾驶员座ST1的乘客且乘客为驾驶操作中的情况下，主要基于声音来推定搭话对象。这是因为，有可能无法获得可以期待的程度的驾驶操作中的乘客的表情变化、瞳孔的位置的变化、面部的朝向的变化。另一方面，智能体控制部180在讲话者是就座于驾驶员座ST1的乘客以外的情况下，由于通过表情变化、瞳孔的位置的变化、面部的朝向的变化等而能够推定讲话者的搭话对象的可能性高，所以，也可以基于拍摄结果和声音来推定搭话对象。

智能体控制部180例如对由话筒114收集到的声音进行解析的结果或对基于车室内相机112的拍摄进行解析的结果是在乘客的讲话结束后检测到阈值(例如1秒～2秒程度)以上的空白时间的情况下，识别为搭话对象是智能体图像。一般，若是乘客彼此的会话，则从一方的乘客结束如“明天会下雨吧？”那样以询问的形式结尾的讲话起，其他乘客不间断地做出“嗯。”、“呃。”、“是吧。”、“这么说来，天气预报说的是晴天哦。”等应对的可能性高。因此，智能体控制部180在讲话者的讲话是以询问的形式结尾的讲话、且从讲话的结束起检测到阈值以上的空白时间的情况下，识别为是针对智能体图像的讲话。

智能体控制部180也可以对由话筒114收集到的声音进行成分解析，评价乘客的讲话，基于该评价结果来识别搭话对象。智能体控制部180例如评价讲话者讲话的抑扬顿挫、声调(tune：声音的高度)。例如，在个人资料264中存储有讲话者具有与平常时的会话相比在针对装置的声音输入时会加上抑扬顿挫而清楚地说话的倾向的情况下，智能体控制部180在从讲话者的讲话声音检测到该特征的情况下，识别为搭话对象是智能体图像。

[处理流程1]

以下，使用流程图对由智能体控制部180进行的一系列处理的流程进行说明。图8是示出由智能体装置100进行的检测与面部朝向相关的发言时的处理的流程的一例的流程图。

首先，自然语言处理部240识别由乘客调出智能体图像的讲话(步骤S100)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的讲话者(步骤S102)。在能够确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝讲话者显示(步骤S104)。在无法确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝就座于副驾驶员座的乘客显示(步骤S106)。在步骤S106中，也可以使智能体图像的显示位置移动到接近就座于副驾驶员座的乘客的显示部116的一部分区域。

在步骤S104或步骤S106的处理之后，自然语言处理部240判别是否识别到由乘客进行的与智能体图像的面部朝向相关的发言(步骤S108)。在没有识别到与面部朝向相关的发言的情况下，进行针对搭话目标的应对处理(步骤S110)。在识别到与面部朝向相关的发言的情况下，智能体控制部180变更智能体图像的搭话目标(步骤S112)，进行步骤S110的处理。以上，结束本流程图的处理的说明。

[伴随于乘客的表情变化产生的智能体图像的面部朝向的变更]

智能体控制部180在智能体图像的初始显示之后，在通过乘客状态解析部156解析车室内相机112的拍摄图像而检测到乘客的表情变化的情况下，控制显示部116以使得智能体图像的面部朝向朝与当初的朝向不同的方向。智能体控制部180例如在检测到由车室内相机112拍摄到的、搭话目标的乘客的消极的表情变化的情况下，也同样使智能体图像的面部朝向变更。所谓消极的表情变化，例如是成为被分类为惊讶、焦躁、困惑的表情。在乘客从智能体图像显示前起就做出该表情的情况下，智能体控制部180不检测为产生了消极的表情变化。

[处理流程2]

图9是示出由智能体装置100进行的检测表情变化时的处理的流程的一例的流程图。图9所示的流程图的步骤S200～S206、S210～S212与图8所示的流程图的步骤S100～S106、S110～S112对应。

首先，自然语言处理部240识别由乘客调出智能体图像的讲话(步骤S200)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的讲话者(步骤S202)。在能够确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝讲话者显示(步骤S204)。在无法确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像的面部朝向朝就座于副驾驶员座的乘客显示(步骤S206)。

在步骤S204或步骤S206的处理之后，乘客状态解析部156判别是否识别到乘客的表情变化(步骤S208)。在没有识别到乘客的表情变化的情况下，进行针对搭话目标的应对处理(步骤S210)。在识别到乘客的表情变化的情况下，智能体控制部180变更智能体图像的搭话目标(步骤S212)，进行步骤S210的处理。以上，结束本流程图的处理的说明。

[讲话者不明时的智能体图像初始显示]

图10是说明讲话者不明时的智能体图像EI1的初始显示位置的图。智能体控制部180在没能推定出哪一个乘客讲话了的情况下，可以如图10所示，从显示部116A的左端部，将车室内的全员作为搭话目标，朝向包含乘客全员的区域Ta那一方显示智能体图像EI1。在不存在就座于副驾驶员座ST2的乘客但存在就座于后部座位ST3的乘客P3的情况下，也可以将后部座位ST3的乘客P3当作搭话目标，朝向区域Ta那一方设定智能体图像EI1的面部朝向。

[反映了讲话内容的解释结果的显示位置]

智能体控制部180也可以对应对内容的意思进行解释，将搭话目标变更为讲话者以外的乘客。例如，在就座于副驾驶员座ST2的乘客代替就座于驾驶员座ST1的乘客而对智能体图像做出了“限制速度是多少？”那样的与驾驶操作相关的提问的情况下，判别为希望该回答朝向就座于驾驶员座ST1的乘客发出，将搭话目标从作为讲话者的就座于副驾驶员座ST2的乘客变更为就座于驾驶员座ST1的乘客。例如，在就座于驾驶员座ST1的驾驶操作中的乘客代替就座于副驾驶员座ST2的乘客而对智能体图像做出了“播放电影。”那样的与驾驶操作无关的条目的播放指示的情况下，将讲话者的讲话解释为包含“想要播放条目以使其他乘客能够欣赏。”这一意图，使条目显示于接近成为显示对象的乘客的位置且不会影响到驾驶操作的显示部116的一部分区域。

上述说明的识别·识别的方法，都不是做出确定性的判断，也可以复合地做出判断。例如，在通过车室内相机112的拍摄图像、话筒114收集到的声音信号的解析结果而以高的确信度推定出就座于副驾驶员座ST2的乘客正在讲话的情况下，即便该讲话的内容与驾驶操作相关，在就座于驾驶员座ST1的乘客没有把注意朝向智能体图像的情况下(例如，正处于进行右转或左转的期间的情况、打开窗而正在与车外的人会话的情况下)，智能体控制部180也可以使智能体图像以与就座于副驾驶员座ST2的乘客对置的方式显示。总之，智能体控制部180也可以对判断要素分别设定权重、优先级，进行综合判定。

[处理流程3]

图11是示出由智能体装置100进行的一系列处理的流程的一例的流程图。图11所示的流程图的步骤S300～S302、S310及S312与图8所示的流程图的步骤S100～S102、S108及S312对应，图11所示的流程图的步骤S308与图9所示的流程图的步骤S208对应。

首先，自然语言处理部240识别由乘客调出智能体图像的讲话(步骤S300)。接着，乘客状态解析部156判别是否能够确定自然语言处理部240识别到的声音的讲话者(步骤S302)。在能够确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像显示于离讲话者近的一部分区域，且进行控制以使得智能体图像的面部朝向朝讲话者显示(步骤S304)。在无法确定讲话者的情况下，智能体控制部180进行控制以使得智能体图像显示于离就座于副驾驶员座的乘客近的一部分区域，且进行控制以使得智能体图像的面部朝向朝就座于副驾驶员座的乘客显示(步骤S306)。

在步骤S304或步骤S306的处理之后，乘客状态解析部156判别是否识别到乘客的表情变化(步骤S308)。在没有识别到乘客的表情变化的情况下，自然语言处理部240判别是否识别到由乘客进行的与智能体图像的面部朝向相关的发言(步骤S310)。在没有识别到与面部朝向相关的发言的情况下，智能体控制部180进行针对搭话目标的应对处理(步骤S312)。在步骤S308中识别到乘客的表情变化的情况下，或者在步骤S310中识别到与面部朝向相关的发言的情况下，智能体控制部180变更智能体图像的搭话目标(步骤S314)，进行步骤S312的处理。在步骤S314中，智能体控制部180也可以仅进行面部朝向的变更和显示位置的变更中的任一方。以上，结束本流程图的处理的说明。

根据以上说明的实施方式，具备：显示部116；话筒114，其收集车室内的声音；多个扬声器118，其通过输出的组合而能够进行声像定位；以及智能体控制部180，其使显示部116显示智能体图像，并且使扬声器118输出声音，智能体控制部180识别车辆的乘客中的由话筒114收集到讲话的声音的讲话者，使对乘客搭话的形态的智能体图像显示于讲话者的附近的显示部116的一部分区域，并且，使声像定位于智能体图像的显示位置，由此，能够使智能体进行自然的行为。

以上使用实施方式说明了本发明的具体实施方式，但本发明丝毫不被这样的实施方式限定，在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims

1.一种智能体装置，其中，

所述智能体装置具备：

显示部；

话筒，其收集车室内的声音；

多个扬声器，它们通过输出的组合而能够进行声像定位；以及

智能体控制部，其使所述显示部显示智能体图像，并且使所述扬声器输出声音，

所述智能体控制部识别车辆的乘客中的由所述话筒收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且，使声像定位于所述智能体图像的显示位置。

2.根据权利要求1所述的智能体装置，其中，

所述显示部具有使2个以上的所述乘客识别到在与所述乘客自身对置的位置显示有智能体图像的程度的显示区域的大小。

3.根据权利要求2所述的智能体装置，其中，

所述显示部包括与所述乘客分别对置的单独显示器，且/或包括在多个所述乘客的附近范围设置的显示器。

4.根据权利要求3所述的智能体装置，其中，

所述智能体装置还具备对所述车室内进行拍摄的相机，

所述智能体控制部通过对由所述相机拍摄到的包含所述乘客的图像的解析，来识别所述讲话者。

5.根据权利要求4所述的智能体装置，其中，

所述智能体控制部通过对由所述相机拍摄到的包含所述乘客的图像的解析，来识别所述讲话者是正在朝向所述智能体图像讲话还是正在对其他所述乘客讲话。

6.根据权利要求5所述的智能体装置，其中，

所述智能体控制部在对由所述话筒收集到的所述声音进行解析的结果或对基于所述相机的拍摄进行解析的结果是在所述乘客讲话结束后检测到阈值以上的空白时间的情况下，识别为是针对所述智能体图像的讲话。

7.根据权利要求5或6所述的智能体装置，其中，

所述智能体控制部基于由所述话筒收集到的所述声音的成分解析的评价，来识别是否为针对所述智能体图像的讲话。

8.根据权利要求5～7中任一项所述的智能体装置，其中，

所述智能体控制部在所述声音所表示的内容与驾驶操作相关的情况下，识别为是驾驶员发出的针对所述智能体图像的讲话。

9.根据权利要求1～8中任一项所述的智能体装置，其中，

所述智能体控制部在无法判定所述讲话者的情况下，使所述声像的定位位置为无指向。

10.一种智能体提示方法，其中，

所述智能体提示方法使计算机进行如下处理：

收集车室内的声音；

使显示部显示智能体图像，并且使通过输出的组合而能够进行声像定位的多个扬声器输出声音；以及

识别车辆的乘客中的被收集到讲话的所述声音的讲话者，并使对所述乘客搭话的形态的所述智能体图像显示于所述讲话者的附近的所述显示部的一部分区域，并且将声像定位于所述智能体图像的显示位置。

11.一种存储介质，其中，

所述存储介质存储有如下程序，所述程序使计算机进行如下处理：

收集车室内的声音；