CN114175114A

CN114175114A - 从自动驾驶车辆内部识别兴趣点的***和方法

Info

Publication number: CN114175114A
Application number: CN201980097712.0A
Authority: CN
Inventors: 路易斯·比尔; 张迪; 李浩庭; 杨磊; 于海
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2022-03-11
Also published as: US20210293567A1; EP3980921A1; WO2020142112A1; BR112022000233A2

Abstract

本申请涉及一种自动驾驶车辆内的技术，用于在乘客在所述自动驾驶车辆内行驶时与所述乘客交互以提供关于他们周围环境的信息。在一个示例中，***可以自动检测关于所述车辆附近的兴趣点的信息并将所述信息推送给所述车辆乘客。在另一个示例中，所述***在所述自动驾驶车辆中的乘客发出身体和/或语言提示之后，提供关于所述自动驾驶车辆周围的兴趣点的信息。

Description

从自动驾驶车辆内部识别兴趣点的***和方法

技术领域

本申请大体上涉及车辆，具体涉及一种在自动驾驶车辆中检测和响应关于自动驾驶车辆周围兴趣点的信息请求的***。

背景技术

自动驾驶车辆将在不久的将来彻底改变我们的交通***，在自动驾驶车辆中，传感器和软件取代人类驾驶员控制、导航和驾驶车辆。“解放双手”行驶的主要好处之一是，它为驾驶员以新的方式与车辆环境的内部和外部交互提供了巨大潜力。鉴于此，提供一个能够理解和支持这种交互的***将是有利的。自动驾驶车辆进一步为旅游业提供了巨大潜力，例如能够驾驶自动导引车辆游览地标和其它地区。自动导引车辆还将为残障人士和无法驾驶的人士提供更多的自主权和旅行选择。这些场景中的每一个场景都将从能够更好地理解和支持用户与车辆交互的新方法的***中受益。

发明内容

在实施例中，提供了一种自动驾驶车辆内的***，该***能够在乘客在自动驾驶车辆内行驶时与乘客交互以提供关于他们周围环境的信息。在一个示例中，***可以自动检测关于所述车辆附近的兴趣点的信息并将所述信息推送给所述车辆乘客。在另一个示例中，所述***在所述自动驾驶车辆中的乘客发出身体和/或语言提示之后，提供关于所述自动驾驶车辆周围的兴趣点的信息。

根据本申请的一个方面，一种用于识别自动驾驶车辆周围的兴趣点的***，包括：所述自动驾驶车辆内的一组一个或多个传感器，用于感测与以下各项中的至少一项相关的数据：所述自动驾驶车辆中乘客的身体姿势、眼睛凝视、指向手势和语音；所述自动驾驶车辆内的输出设备；所述自动驾驶车辆内的计算机，所述计算机执行指令以进行以下操作：从接收自所述一组一个或多个传感器的与所述乘客相关的数据中接收方向的指示，确定位于所述接收到的方向指示的方向上的兴趣点，使所述输出设备输出与所述确定的兴趣点相关的信息。

可选地，在上述任一方面中，从所述一组一个或多个传感器接收的所述数据与所述乘客头部和眼睛的位置相关。

可选地，在上述任一方面中，从所述一组一个或多个传感器接收的所述数据与由所述乘客执行的指向手势相关。

可选地，在上述任一方面中，从所述一组一个或多个传感器接收的所述数据与描述所述兴趣点所在方向的识别语音相关。

可选地，在上述任一方面中，所述计算机根据所述接收到的方向指示和接收到的与所述自动驾驶车辆周围存储的兴趣点位置相关的数据，确定所述兴趣点。

可选地，在上述任一方面中，所述接收到的与所述自动驾驶车辆周围的地形相关的数据包括以下各项中的至少一项：GPS数据、由所述自动驾驶车辆上的第二组一个或多个传感器感测到的数据以及从云服务接收的数据。

根据本申请的一个方面，一种用于识别自动驾驶车辆周围的兴趣点的***，包括：所述自动驾驶车辆内的一组一个或多个传感器，用于感测与以下各项中的至少一项相关的数据：所述自动驾驶车辆中乘客的身体姿势、眼睛凝视、指向手势和语音；所述自动驾驶车辆内的输出设备；所述自动驾驶车辆内的计算机，所述计算机执行指令以进行以下操作：根据由所述一组一个或多个传感器感测到的所述数据推断方向响应矢量，识别沿着方向结果矢量定位的所述自动驾驶车辆周围的兴趣点，使所述输出设备输出与所述兴趣点相关的信息。

可选地，在上述任一方面中，所述计算机还识别所述乘客的语音，所述计算机使用所述识别语音来帮助识别所述兴趣点。

可选地，在上述任一方面中，所述计算机还接收外部信息，以便识别沿着所述方向结果矢量定位的所述兴趣点。

可选地，在上述任一方面中，身体和手势检测模块由所述计算机实现，所述身体和手势检测模块至少在一个时刻检测所述乘客的骨骼模型。

可选地，在上述任一方面中，头部矢量模块由所述计算机实现，用于从所述骨骼模型确定头部矢量，所述头部矢量指示所述乘客头部所面对的方向。

可选地，在上述任一方面中，眼睛凝视矢量模块由所述计算机实现，用于确定眼睛凝视矢量，所述眼睛凝视矢量指示所述乘客眼睛看向的方向。

可选地，在上述任一方面中，手指指向矢量模块由所述计算机实现，用于从所述骨骼模型确定手指指向矢量，所述手指指向矢量指示所述乘客所指向的方向。

可选地，在上述任一方面中，语音识别模块由所述计算机实现，用于识别与所述兴趣点的身份相关的语音。

可选地，在上述任一方面中，多模态响应解释模块接收所述头部矢量、所述眼睛凝视矢量、所述手指指向矢量和所述识别语音中的至少一个，并根据所述接收到的所述头部矢量、所述眼睛凝视矢量、所述手指指向矢量和所述识别语音中的至少一个，推断所述方向响应矢量。

可选地，在上述任一方面中，所述多模态响应解释模块使用机器学习方法(例如但不限于神经网络)来实现。

根据本申请的另一方面，提供了一种识别自动驾驶车辆周围兴趣点的方法，包括：从获得自所述自动驾驶车辆的乘客的数据中接收方向的指示，其中，所述数据与身体姿势和语音识别中的至少一个相关；确定位于所述接收到的方向指示的方向上的兴趣点；将所述确定的兴趣点输出到所述自动驾驶车辆内的输出设备。

可选地，在上述任一方面中，所述接收所述兴趣点所在方向的指示的步骤包括接收与所述乘客头部和眼睛位置相关的数据的步骤。

可选地，在上述任一方面中，所述接收所述兴趣点所在方向的指示的步骤包括接收和识别由所述乘客执行的指向手势的步骤。

可选地，在上述任一方面中，所述接收所述兴趣点所在方向的指示的步骤包括接收和识别所述乘客的描述所述兴趣点所在方向的语音的步骤。

可选地，在上述任一方面中，所述确定位于所述接收到的方向指示的方向上的所述兴趣点的步骤包括接收到的与所述自动驾驶车辆周围存储的兴趣点相关的数据的步骤。

根据本申请的另一方面，提供了一种存储计算机指令的非瞬时性计算机可读介质，所述计算机指令由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤：从接收自自动驾驶车辆的乘客的与身体姿势和语音识别中的至少一个相关的数据中接收兴趣点所在的方向的指示；确定位于所述接收到的方向指示的方向上的兴趣点；将与所述确定的兴趣点相关的信息输出到所述自动驾驶车辆内的输出设备。

本申请内容简单介绍了一系列概念，在具体实施方式中会进一步描述这些概念。本申请内容不旨在识别所要求保护的主题的关键特征或基本特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决背景技术中提到的任何或所有缺点的实现方式。

附图说明

本申请的各方面以示例方式说明，不受附图的限制，其中，相同附图标记指示元件。

图1是可以实现本技术的实施例的驾驶环境的示意性俯视图；

图2是可以实现本技术的实施例的网络环境的示意图；

图3是自动驾驶车辆的外部的透视图，包括用于检测车辆与该驾驶环境的交互的多个传感器；

图4是自动驾驶车辆的内部的侧视图，包括用于感测车辆内乘客的身体和/或听觉属性的多个传感器；

图5是示出了本技术的实施例的步骤的流程图，其中，兴趣点信息被自动推送给自动驾驶车辆中的乘客；

图6是包括自动驾驶车辆和兴趣点的驾驶环境的透视图；

图7是用于实现本技术实施例的模块的示意性图示；

图8是示出了本技术的实施例的步骤的流程图，其中，在发出请求兴趣点信息的身体和/或语言提示之后，将兴趣点信息提供给自动驾驶车辆中的乘客；

图9是一个语言提示的图示，其中，乘客正在询问关于自动驾驶车辆周围兴趣点的信息；

图10是与乘客头部位置和眼睛凝视相关的身体提示的图示，该头部位置和眼睛凝视可被解释为乘客询问关于自动驾驶车辆周围兴趣点的信息；

图11是与乘客的指向手势相关的身体提示的图示，该指向手势可被解释为乘客询问关于自动驾驶车辆周围兴趣点的信息；

图12是一个语言提示的图示，其中，乘客正在阐述所请求的关于自动驾驶车辆周围兴趣点的信息；

图13是用于实现本技术的各方面的示例性计算环境的示意性框图。

具体实施方式

现在将参考附图来描述本申请，本申请大体上涉及自动驾驶车辆内的***，该***能够在乘客在自动驾驶车辆内行驶时与乘客交互以提供关于他们周围环境的信息。在一个示例中，***可以在自动推送模式下操作，在这种模式中，关于车辆附近的兴趣点的信息被自动检测并推送给车辆乘客。

在另一个示例中，***检测乘客的身体和/或语言提示，指示对乘客在驾驶自动驾驶车辆行驶时观察的兴趣点的信息的请求。兴趣点可以是车辆周围环境中的任何特征，包括例如景观的特征或各种人造结构中的任何一种。身体和/或语言提示可以来自乘客表达的多种模式中的任何一种，包括例如头部和眼睛凝视兴趣点、手指指向兴趣点和/或语音提及兴趣点。

可以处理身体和语言提示，以确定乘客所看或所指的地方。这种确定可能会得到其它提示的支持，包括乘客所说的话。本技术还访问外部数据，这些外部数据提供关于在确定的方向上和车辆给定附近内的任何兴趣点的信息。如果识别出位于乘客指示的方向上的最可能的兴趣点，则将与兴趣点相关的信息中继给乘客，例如在平视显示器上以视觉方式和/或在汽车扬声器上以听觉方式传递。

图1是驾驶环境100的俯视示意图。所示的环境100仅作为示例，并且本技术可以用于自动驾驶车辆行驶或可以驾驶自动驾驶车辆的任何环境中。图1示出了许多自动驾驶车辆102，可以包括自动驾驶汽车、卡车、公共汽车、面包车和可能的其它机动车辆。所示的自动驾驶车辆的相应位置、类型和数量仅作为示例，并且在另外的实施例中可以变化。虽然下文参考陆基自动驾驶车辆描述本技术，但本技术的原理也可以应用于各式船舶等水基自动驾驶车辆，或飞机、直升机和飞行车等空基自动驾驶车辆。

根据本技术的方面，自动驾驶车辆102可以向车辆内的一个或多个乘客提供关于车辆给定附近内的兴趣点(point of interest，POI)的信息。POI可以是自动驾驶车辆102的周围环境内的各种物体中的任何一个。POI可以例如是自然发生的事物和/或景观的一部分，例如池塘104。POI可以例如是人造结构，例如建筑物106。但是，应当理解，本技术描述的POI可以是当车辆102静止或当车辆102在驾驶环境100内移动时车辆102的周围环境中的任何兴趣点。此类POI可以是自动驾驶车辆102的周围环境的固定部分，例如池塘104、建筑物106。此类POI也可以是临时的，例如旅游集市或街头节日。当自动驾驶车辆在驾驶环境100内行驶时，自动驾驶车辆102中的一个或多个乘客可能遇到各种不同的POI。

图2是使车辆能够访问关于其驾驶环境的信息的通信网络110的示意性图示。车辆102中的每一个可以包括车载计算机112，该车载计算机112能够识别和提供关于驾驶环境100内POI的信息。自动驾驶车辆102的车载计算机112例如可以是内置在自动驾驶车辆102中的计算***，并且还可以负责车辆102的自动驾驶功能。在另外的实施例中，车载计算机112可以与车辆102中负责车辆102的自动驾驶功能的另一计算机***通信。下面参考图14阐述了车载计算机的示例性实现。

在实施例中，每个自动驾驶车辆102中的车载计算机112可以用于与在彼此预定义距离内的每个其它车辆102的车载计算机112进行对等通信。另外，每个自动驾驶车辆102的车载计算机112可以用于通过无线协议和/或通过移动电话网络与网络114无线通信。移动电话网络可以包括基站116(示出了其中一个)，用于在自动驾驶车辆102与移动网络主干线118之间传输数据和软件。主干线118又可以具有到网络114的网络连接。

根据本技术的方面，自动驾驶车辆102的车载计算机112可以从不同来源获得关于POI的信息。其中一个来源可以是云服务120。云服务120可以包括一个或多个服务器122(包括连接到网络114的Web服务器)和用于存储关于POI和其它数据的信息的数据存储器126。

图3示出了包括各种传感器302的自动驾驶车辆102的示例，所述各种传感器302用于收集关于其环境(包括其它自动驾驶车辆和POI)的数据。这些传感器302可以包括但不限于一个或多个彩色摄像机、NIR摄像机、飞行时间摄像机或任何其它可用并适用于***的摄像机或成像传感器。***还可以利用各种其它传感器，例如激光雷达传感器、深度传感器、雷达传感器、声音传感器、超声波传感器，以及可适用于物体检测的其它传感器。自动驾驶车辆102还可以包括GPS接收器，用于检测GPS接收器相对于其附近POI位置的位置。图3中所示的特定传感器302仅作为示例，并且在另外的实施例中，自动驾驶车辆102可以包括位于其它位置的其它传感器。

图4示出了自动驾驶车辆102的内部的示例，该自动驾驶车辆102包括各种传感器402，用于收集关于自动驾驶车辆内一个或多个乘客的数据，以供如下使用。这些传感器402可以包括但不限于一种或多种彩色摄像机、NIR摄像机、飞行时间摄像机或其它摄像机，和/或其它传感器，例如深度传感器、声音传感器或适合于乘客检测的其它传感器。所示的特定传感器402仅作为示例，并且在另外的实施例中，自动驾驶车辆102的内部可以包括位于其它位置的其它传感器。

在一个实施例中，本技术可以在自动POI推送模式下操作，在这种模式中，在静止或移动的自动驾驶车辆102周围自动检测POI，并且与这些POI相关的信息被自动推送到车辆102。自动POI推送模式可以有利地用于各种场景。例如，当自动驾驶车辆102中的乘客在驾驶环境中行驶时，可能希望被告知POI并获得关于POI的信息。

自动POI推送模式还可能发生在乘客视力受损，或者自动驾驶车辆102的窗户变暗或以其它方式变得不透明时，例如当车辆102处于睡眠或隐私模式时。在这种情况下，乘客可以在看不见他或她的驾驶环境的情况下接收关于POI和车辆进度的信息。自动POI推送模式也可以有利地用于自动旅游车辆，以向车辆内的游客指示POI。

现在将参考图5的流程图500描述用于实现自动POI推送模式的本技术的实施例。在步骤502中，自动驾驶车辆的车载计算机112可以检测用于启动自动POI推送模式的触发器。该触发器可以是各种身体和/或语言提示中的任何一种。在另外的实施例中，自动驾驶车辆可以默认处于自动POI推送模式。

在步骤504中，自动驾驶车辆102的车载计算机112可以确定车辆的位置，并且在步骤506中，可以搜索在车辆102的预定义半径内的POI。车载计算机112可以使用各种外部数据源(例如GPS)来定位自身和POI。结合GPS，地理区域中所有可能的POI的地图可以存储在云服务120的数据存储器126中。车载计算机112可以周期性地向云服务120询问自动驾驶车辆102的当前位置的预定义半径内的POI。代替或除了在云服务上存储POI信息，POI的位置和关联信息可以存储在自动驾驶车辆102内的存储器中。当存储在自动驾驶车辆102内的存储器中时，无需联系云服务120即可识别POI。外部传感器302还可用于检测车辆102附近内的POI。

POI可以例如在云服务120或车载计算机112的存储器中被分类。这种类别可以包括例如历史地标、酒店、餐馆、加油站等。车载计算机112可以存储用户偏好，或接收乘客的指令，以将接收到的关于POI的信息过滤到一个或多个特定类别。

再次参考流程图500，流程可以在步骤504与步骤506之间周期性地循环，直到在步骤506中识别出自动驾驶车辆102的预定义半径内的POI。在该点上，可以将POI的标识和可能与POI相关的附加信息输出给车辆102内的一个或多个乘客，例如在车辆102中的平视显示器上以视觉方式和/或在车辆102中的扬声器上以听觉方式输出。输出信息可以例如包括POI的名称、POI的地址、到POI的方向、在POI处提供的服务、POI的描述、POI的历史以及各种其它信息。同样，该信息可以从车载计算机112内的存储器检索，或从云服务120传输。在一个非限制性示例中，自动驾驶车辆可能会显示或说出：“您正在接近乔的餐厅(Joe′sRestaurant)，供应意大利食物。目前可预订。”如上述示例中所述，信息可以实时更新，以便例如包括关于当前运营时间、是否可预订等的信息。

在实施例中，除了上述信息之外，描述POI相对于自动驾驶车辆102内的一个或多个乘客的位置可能是有利的。例如，在上述示例的替代方案中，自动驾驶车辆可能会显示或说出“您正在接近左侧的乔的餐厅，供应意大利菜……”。用于该实施例的步骤也在图5的流程图500中示出。具体地，在步骤506中识别了POI之后，车载计算机可以在步骤508中计算车辆102与POI之间的矢量，本文中称为“方向结果矢量”。

图6中示出了在自动驾驶车辆102与两个不同POI 104和106之间的一对方向结果矢量606和602。使用自动驾驶车辆102的已知GPS坐标和来自GPS或云数据的POI 104或106的已知位置，车载计算机112能够定义车辆与POI之间的方向结果矢量。方向结果矢量可以用线性坐标或旋转坐标表示，并且可以是二维或三维的。例如，可以忽略车辆102的位置与POI之间的高度差，使得方向结果矢量是二维的。在可获得高度数据的另外实施例中，方向结果矢量可以是三维的，还描述了车辆102与POI之间的高度差。

使用方向结果矢量，车载计算机112可以一般地或特定地输出POI相对于车辆102的距离和方向。例如，如上所述，车载计算机112可以指示POI通常位于车辆当前位置的“左侧”或“右侧”。或者，车载计算机112可以指示POI位于相对于车辆的特定位置，例如车辆当前位置的“西北偏北80°”。该特定位置仅是举例，可以以各种其它方式表达。

除了确定自动驾驶车辆102与POI之间的方向结果矢量外，本技术还可以具体地确定从乘客到POI的特定视角的方向结果矢量。例如，POI可以位于第一乘客的“左侧”，但位于面向与车辆102内的第一乘客不同方向的第二乘客的“右侧”。

图5还包括步骤510和步骤512，使车载计算机能够将方向结果矢量转换为车辆102内给定乘客的特定参考系。具体地，在步骤510中，一个或多个内部传感器402(图4)可以检测乘客相对于一个或多个内部传感器402的身体姿势和取向。下面参考图7至图10描述用于检测给定乘客相对于一个或多个内部传感器402的身体姿势和取向的其它细节。但是，通常，车载计算机112能够确定乘客的身体、头部和/或眼睛相对于一个或多个内部传感器402的取向。通常，使用该信息，例如使用已知的特殊变换矩阵，从POI到自动驾驶车辆102的方向结果矢量可以被转换为车辆102内乘客的特定参考系。

在确定了POI相对于车辆102或车辆102内的乘客的位置后，在步骤514中，可以向乘客输出到POI的方向和/或关于POI的信息。如上所述，该信息可以使用车辆内的平视显示器以视觉方式和/或车辆内的扬声器以听觉方式输出。

与自动POI推送模式相反，本技术可以替代地在自动驾驶车辆102内的一个或多个乘客对此类信息进行请求之后提供POI信息。这些请求可以由执行动作的人提出，所述动作例如凝视POI、指着POI、说出与POI相关的话语和/或其它身体或语言提示。现在将参考图7至图13描述该实施例。

图7是由车载计算机112实现的软件模块的示意框图，该软件模块从内部传感器402接收内部数据，以确定乘客何时请求关于POI的信息以及该POI位于何处。然后，使用包括来自外部传感器302的外部数据，软件模块可以识别并返回关于所选POI的信息。现在将参考图8的流程图描述图7中所示的软件模块的操作。

在步骤802中，车载计算机接收由内部传感器402捕获的多模态数据。该多模态数据可以包括与乘客身体、头部、面部和/或眼睛的位置相关的数据，以及与乘客语音相关的数据。

具体地，一个或多个内部摄像机和/或图像传感器402以例如每秒30帧的帧率捕获乘客的图像数据，并且该图像数据被传递到身体/头部/面部/手部和手势检测模块702。在另外的实施例中，帧率可以在每秒30帧以上或以下变化。身体/头部/面部/手部和手势检测模块702可以执行一个或多个已知算法，用于将从一个或多个传感器402接收的数据解析为表示乘客身体部位相对于一个或多个传感器402的位置的各种数据集。这些数据集可以表示乘客的身体、头部、面部和/或手部的位置。

例如，身体/头部/面部/手部和手势检测模块702可以制定表示乘客的躯干、手臂和腿部相对于一个或多个传感器402的位置的骨骼模型。身体/头部/面部/手部和手势检测模块702还可以执行算法，用于确定乘客头部相对于一个或多个传感器402的位置。身体/头部/面部/手部和手势检测模块702还可以执行已知算法，用于识别乘客的面部和面部特征的位置，例如包括乘客的眼睛在头部内的位置。身体/头部/面部/手部和手势检测模块702还可以执行已知算法，用于确定乘客手部的位置以及单个手指的位置。在实施例中，身体/头部/面部/手部和手势检测模块702可以作为单个算法的一部分或作为一个或多个单独算法执行上述算法。在另外的实施例中，可以省略上述算法中的一个或多个。

上述身体、头部、面部、眼睛和/或手部位置可以从捕获自一个或多个内部传感器104的图像数据的单帧中辨别。另外，如已知的，身体/头部/面部/手部和手势检测模块702可以在连续的图像数据帧中查看身体、头部、面部、眼睛和/或手部随时间的移动，以辨别符合预定义手势的移动。描述这种预定义手势的数据可以存储在与身体/头部/面部/手部和手势检测模块702相关联的手势库中。当接收到的多模态数据符合存储的手势数据时，身体/头部/面部/手部和手势检测模块702可以识别手势，例如指向。

除了身体、头部、面部、眼睛和/或手部位置数据之外，多模态数据可以包括由一个或多个内部传感器402的麦克风捕获的音频数据。该音频数据可以被提供给语音识别模块704，该语音识别模块704可以以已知的方式从音频数据中辨别语音。如果车辆102中有单个乘客，则该语音可以属于该乘客。如果车辆中有多个乘客(或来自多个来源的音频)，则可使用多模态数据中的其它指标来辨别语音可能属于哪个乘客。例如，当语音在时间上与特定乘客嘴巴的运动和/或特定乘客在发出语音中某些已识别音素时的嘴型同步时，该语音可能属于该乘客。多个麦克风还可以通过三角测量或其它声音定位技术辨别语音来源。

在步骤802中接收和分析多模态数据后，车载计算机接着在步骤804中查找数据中的提示，该提示指示对与自动驾驶车辆102周围的POI相关的信息的请求。具体地，并非乘客的所有身体姿势和/或动作都被解释为指示请求POI信息的提示。使用一组启发式规则，车载计算机分析多模态数据，以确定乘客是否正在请求与POI相关的信息。

各种身体、头部、面部、眼睛和/或手部的位置和动作可被解释为请求POI信息的提示。例如，身体/头部/面部/手部和手势检测模块702可以从头部和眼睛多模态数据确定用户所凝视车辆外部的固定位置。或者或另外，身体/头部/面部/手部和手势检测模块702可以从手部多模态数据确定乘客的手部和手指所指向车辆外部的物体。或者或另外，语音识别模块704可以识别与车辆外部的POI相关的语音。

在步骤804中，这些提示中的任何一个或多个以及各种其它提示可以被车载计算机解释为对信息的请求。图9示出了一个示例，其中，多模态数据指示乘客在固定方向上凝视，执行指向手势和/或说出被识别为“那是哪栋建筑？”的话语。这些动作中的任何一个或多个都可被视为请求关于乘客视野内POI的信息的提示。应当理解，在另外的实施例中，来自多模态数据的各种其它提示可以被解释为步骤804中的信息请求。

再次参考图8的流程图，步骤802和步骤804周期性地循环，直到识别出用于请求关于车辆周围POI的信息的身体和/或语言提示。在从多模态数据中识别出这种提示后，车载计算机112可以在步骤808中计算头部和眼睛凝视矢量。具体地，车载计算机可以实现头部矢量模块710，该头部矢量模块710以已知的方式计算直线地从乘客面部延伸的矢量，即垂直于通常平行于乘客面部的平面的矢量。图10中示出了乘客1002的头部矢量1004的示例。头部矢量1004可以用相对于可以位于内部传感器402上的一个位置处的原点位置的线性坐标或旋转坐标表示。头部矢量1004例如可以是三维的。

车载计算机还可以实现凝视矢量模块712，该凝视矢量模块712沿着乘客眼睛的视线计算凝视矢量。已知用于计算凝视矢量的各种算法。在一个示例中，算法将乘客眼睛分成例如4个象限，然后测量每个象限中的白色部分(即巩膜)的量。从这些测量中，算法可以辨别乘客眼睛在其头部中所处的位置，并且可以从该位置确定凝视矢量，该凝视矢量垂直于眼睛。图10中示出了乘客1002的凝视矢量1006的示例。凝视矢量1006可以用相对于可以位于内部传感器402上的一个位置处的原点位置的线性坐标或旋转坐标表示。凝视矢量1006例如可以是三维的。

在步骤810中，车载计算机112检查多模态数据是否显示乘客执行指向手势。如果是，则手指指向矢量模块714在步骤814计算指向矢量。手指指向矢量模块714检测手指(该手指直线地指出，而其它手指向内卷)的位置。然后，模块714以已知的方式确定在伸出的手势的方向上延伸的指向矢量。图11中示出了乘客手部1102的指向矢量1104的示例。指向矢量1104可以用相对于可以位于内部传感器402上的一个位置处的原点位置的线性坐标或旋转坐标表示。指向矢量1104例如可以是三维的。

应当了解，乘客可以以各种方式指向，而不是用一个伸出的手指指向。例如，乘客可以使用物体(例如，使用手中的钢笔或铅笔)指向。乘客还可以指用手部以外的身体部位指向，例如在乘客的手部残疾或缺失的情况下，如用手肘或用脚指向。身体/头部/面部/手部和手势检测模块702可以被装备成使用各种物体和身体部位中的任一个检测指向手势。此外，虽然本文中称为手指指向矢量模块，但当检测到指向手势时，模块714可以从各种物体或身体部位中的任一个生成指向矢量。如果在步骤810中没有从多模态数据中找到指向手势，则可以跳过计算指向矢量的步骤814。

在步骤818中，车载计算机检查语音或面部表情是否被识别。具体地，如上所述，车载计算机可以包括能够以已知方式识别语音的语音识别模块704。如果识别出语音，则将该语音用作多模态数据解释模块722的输入，如下所述。另外，车载计算机112可以实现面部表情和唇读模块718。可以设想，某些面部表情可以用作指示对车辆102外部POI信息的需求的提示。如果识别出这种面部提示，则这种面部提示可以用作多模态数据解释模块722的输入。唇读模块(其可以与面部表情模块组合或与面部表情模块分离)可用于支持语音识别模块704的语音识别。

如果在步骤818中没有从多模态数据识别出语音或面部表情，则可以跳过确定语音和/或面部表情输入的步骤820。

在步骤824中，由上述模块解释的所有多模态数据可以输入到多模态数据解释模块722，以在步骤824中计算方向结果矢量。在实施例中，多模态数据解释模块722可以是神经网络，该神经网络接收头部矢量1004、眼睛凝视矢量1006、指向矢量1104、识别语音和/或识别面部表情作为输入，通过神经网络的层处理这些输入，并确定乘客指示的POI的方向。在这种情况下，多模态数据解释模块722可以输出指向POI的方向结果矢量，如上文关于自动推送模式所述。多模态数据解释模块722还可以使用识别语音或其它提示来辨别特定POI。在实施例中，多模态数据解释模块722可以接收原始多模态数据本身，而不是接收如上所述的身体或语言提示。

在实施例中，多模态数据解释模块722例如可以是卷积神经网络或递归神经网络。在这种情况下，可以使用训练输入数据/结果和真实世界数据/结果(当车辆在驾驶环境100内行驶并识别(或错误识别)POI时获得的数据/结果)随时间推移训练多模态数据解释模块722。在另外的实施例中，多模态数据解释模块722可以被实现为除神经网络以外的算法，如下面参考图13所述。

在步骤826中，车载计算机使用多模态数据解释模块722的输出(即方向结果矢量)来确定乘客所提及的POI。具体地，使用方向结果矢量，车载计算机可以使用外部数据来确定车辆112给定附近内的沿着方向结果矢量定位的一个或多个POI。该外部数据可以包括GPS数据以及存储在车载计算机的存储器或云服务120的数据存储器126中的POI位置信息。例如，沿着方向结果矢量的点可以等同于GPS或地理坐标。车载计算机112可以确定在坐标处是否存在与沿着方向结果矢量的点匹配的POI。语言或其它提示可用于确认或反驳已识别的POI。除了GPS和存储的POI数据之外或代替GPS和存储的POI数据，车辆102的外部传感器302可用于查找沿着方向结果矢量定位的一个或多个POI。

在步骤828中，使用多模态数据解释模块722的输出和外部数据，车载计算机确定是否已识别出满足用户请求的POI。如果已识别出满足用户请求的POI，则在步骤830中，车载计算机使与POI相关的信息通过输出设备输出给车辆102内的一个或多个乘客，例如在车辆102中的平视显示器上以视觉方式和/或在车辆102中的扬声器上以听觉方式输出。具体地，车载计算机向输出设备发送指令，从而使输出设备生成将信息中继给一个或多个乘客的输出。输出信息可以例如包括POI的名称、POI的地址、到POI的方向、在POI处提供的服务、POI的描述、POI的历史以及各种其它信息。

在步骤828中，车载计算机可能无法识别POI。这可能是因为没有找到POI，或者因为沿着方向结果矢量找到多个POI，并且多模态数据解释模块722无法辨别乘客所提及的POI。在这种情况下，车载计算机可以在步骤832中询问乘客以获取更多信息，如图12所示。车载计算机可以返回步骤802以获得新的多模态数据并重复该过程，这一次还使用在步骤832后接收的任何附加信息。

车载计算机可以每秒多次执行流程图800中的步骤，例如以内部传感器402的采样率执行。在车辆正在移动并且用户指向或凝视固定POI的情况下，方向响应矢量将随着乘客相对于POI的位置随时间推移的变化而变化。在实施例中，车载计算机可以使用随时间推移捕获的多个方向结果矢量来对满足多个方向结果矢量的特定POI进行三角测量。

在上述实施例中，多模态数据解释模块722可以使用神经网络实现，但在另外的实施例中，它可以使用其它类型的算法实现。

图13是网络处理设备1301的框图，该网络处理设备1301可用于实现本技术提供的车载计算机112的各种实施例。特定网络处理设备可以使用所有示出的组件或仅使用所述组件的子集，且设备之间的集成程度可能不同。此外，网络处理设备1301可以包含组件的多个实例，例如多个处理单元、处理器、存储器、发送器、接收器等。网络处理设备1301可以包括配备有一个或多个输入/输出设备，例如网络接口、存储接口等。处理单元1301可以包括中央处理单元(central processing unit，CPU)1310、存储器1320、大容量存储设备1330，以及连接到总线1370的I/O接口1360。总线1370可以是任何类型的几种总线架构中的一种或多种，包括存储器总线或存储器控制器、***设备总线等。

CPU 1310可以包括任何类型的电子数据处理器。存储器1320可以包括任何类型的***存储器，例如静态随机存取存储器(static random access memory，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步DRAM(synchronous DRAM，SDRAM)、只读存储器(read-only memory，ROM)，或其组合等。在一个实施例中，存储器1320可以包括在开机时使用的ROM以及在执行程序时使用的存储程序和数据的DRAM。在一个实施例中，存储器1320是非瞬时性存储器。大容量存储设备1330可以包括任何类型的存储设备，所述存储设备用于存储数据、程序和其它信息，并使数据、程序和其它信息可通过总线1370访问。大容量存储设备1330可以包括例如固态硬盘、硬盘驱动器、磁盘驱动器、光盘驱动器等中的一种或多种。

处理单元1301还包括一个或多个网络接口1350，所述网络接口1350可以包括例如以太网线等有线链路，和/或用于访问节点或一个或多个网络1380的无线链路。网络接口1350可以使处理单元1301通过网络1380与远程单元通信。例如，网络接口1350可以通过一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信。在一个实施例中，处理单元1301耦合到局域网或广域网以用于数据处理以及与远程设备通信，所述远程设备例如其它处理单元、互联网、远程存储设施等。

应当理解，本主题可以通过许多不同的形式体现且不应解释为仅限于本文所阐述的实施例。实际上，提供这些实施例是为了使本主题透彻和完整，并将本主题充分传达给本领域技术人员。事实上，本主题旨在涵盖包括在由所附权利要求书定义的本主题的范围和精神内的这些实施例的替代物、修改和等同物。另外，在本主题的以下详细描述中，阐述了许多具体细节，以便提供对本主题的透彻理解。但是，本领域的普通技术人员将清楚，可以在没有这些具体细节的情况下实践本主题。

本文结合本申请实施例提供的方法、装置(***)和计算机程序产品的流程图和/或框图来描述本申请的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以形成机器，使得通过计算机或其它可编程指令执行装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的机制。

非瞬时性计算机可读介质包括所有类型的计算机可读介质，包括磁存储介质、光存储介质和固态存储介质，具体不包括信号。应当理解，软件可以安装在设备中并随设备一同出售。可选地，可以获取软件并将其装载到设备中，包括通过光盘介质或任何形式的网络或分配***获取软件，包括(例如)从软件创作者拥有的服务器或从软件创作者未拥有但使用的服务器获取软件。例如，可以将软件存储在服务器上，以便通过互联网分布。

一个或多个计算机可读存储介质不包括传播的信号本身，可以由计算机和/或一个或多个处理器访问，并包括可移动和/或不可移动的易失性和非易失性内部和/或外部介质。对于计算机，各种类型的存储介质适于以任何适当的数字格式存储数据。本领域技术人员应当理解，可以使用其它类型的计算机可读介质，例如zip驱动器、固态驱动器、磁带、闪存卡、闪存驱动器、盒式磁带等，用于存储用于执行所公开架构的新方法(行为)的计算机可执行指令。

本文中所用的术语仅仅是出于描述特定方面的目的，并且并不意图限制本申请。除非上下文清楚说明，否则本文所用的单数形式“一”和“所述”也旨在包括复数形式。应进一步理解，本说明书中所用的术语“包括”说明存在所述特征、整数、步骤、操作、元件和/或部件，但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、部件和/或它们的组合。

出于说明和描述的目的呈现对本申请的描述，但不旨在按照所公开形式对本申请穷举或限于本申请。在不偏离本申请的范围和精神的情况下，许多修改和改变对本领域的普通技术人员而言是显而易见的。选择和描述本申请的各个方面以便更好地解释本申请的原理和实际应用，并且使本领域的普通技术人员能够以适合于预期的特定用途的各种修改来理解本申请。

出于本文档的目的，与所公开的技术相关联的每个过程可以连续地且由一个或多个计算设备执行。过程中的每个步骤可以由与其它步骤中使用的计算设备相同或不同的计算设备执行，并且每个步骤不一定由单个计算设备执行。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求书中定义的主题不必限于上文描述的具体特征或动作。实际上，公开上述具体特征和动作作为实现权利要求的示例形式。

Claims

1.一种用于识别自动驾驶车辆周围的兴趣点的***，其特征在于，包括：

所述自动驾驶车辆内的一组一个或多个传感器，用于感测与由以下各项组成的组中的一个或多个相关的数据：所述自动驾驶车辆中乘客的身体姿势、眼睛凝视、指向手势或语音；

所述自动驾驶车辆内的输出设备；

所述自动驾驶车辆内的计算机，所述计算机执行指令以进行以下操作：

接收由所述一组一个或多个传感器感测到的所述数据，

根据所述接收到的数据确定方向，

确定沿着所述确定的方向定位的兴趣点，

向所述输出设备发送指令，以输出与所述确定的兴趣点相关的信息，所述输出设备在接收从所述计算机发送的所述指令之后输出所述信息。

2.根据权利要求1所述的***，其特征在于，从所述一组一个或多个传感器接收的所述数据与所述乘客头部和眼睛的位置相关。

3.根据权利要求1或2所述的***，其特征在于，从所述一组一个或多个传感器接收的所述数据与由所述乘客执行的指向手势相关。

4.根据权利要求1至3中任一项所述的***，其特征在于，从所述一组一个或多个传感器接收的所述数据与描述所述兴趣点所在方向的识别语音相关。

5.根据权利要求1至4中任一项所述的***，其特征在于，所述计算机根据所述确定的方向和接收到的与所述自动驾驶车辆周围存储的兴趣点位置相关的数据，确定所述兴趣点。

6.根据权利要求5所述的***，其特征在于，所述接收到的与所述自动驾驶车辆周围存储的位置相关的数据包括以下各项中的至少一项：GPS数据、由所述自动驾驶车辆上的第二组一个或多个传感器感测到的数据以及从云服务接收的数据。

7.一种用于识别自动驾驶车辆周围的兴趣点的***，其特征在于，包括：

所述自动驾驶车辆内的一组一个或多个传感器，用于感测与所述自动驾驶车辆中乘客的身体姿势、眼睛凝视、指向手势和语音中的至少一个相关的数据；

所述自动驾驶车辆内的输出设备；

根据由所述一组一个或多个传感器感测到的所述数据推断方向响应矢量，

识别沿着方向结果矢量定位的所述自动驾驶车辆周围的兴趣点，

向所述输出设备发送指令，以输出所述识别的兴趣点，所述输出设备在接收从所述计算机发送的所述指令之后输出所述兴趣点。

8.根据权利要求7所述的***，其特征在于，所述计算机还识别所述乘客的语音，所述计算机使用所述识别语音来帮助识别所述兴趣点。

9.根据权利要求7或8所述的***，其特征在于，所述计算机还接收外部信息，以便识别沿着所述方向结果矢量定位的所述兴趣点。

10.根据权利要求7至9中任一项所述的***，其特征在于，还包括由所述计算机实现的身体和手势检测模块，所述身体和手势检测模块至少在一个时刻检测所述乘客的骨骼模型。

11.根据权利要求7至10中任一项所述的***，其特征在于，还包括由所述计算机实现的头部矢量模块，用于从所述骨骼模型确定头部矢量，所述头部矢量指示所述乘客头部所面对的方向。

12.根据权利要求7至11中任一项所述的***，其特征在于，还包括由所述计算机实现的眼睛凝视矢量模块，用于确定眼睛凝视矢量，所述眼睛凝视矢量指示所述乘客眼睛看向的方向。

13.根据权利要求7至12中任一项所述的***，其特征在于，还包括由所述计算机实现的手指指向矢量模块，用于从所述骨骼模型确定手指指向矢量，所述手指指向矢量指示所述乘客所指向的方向。

14.根据权利要求7至13中任一项所述的***，其特征在于，还包括由所述计算机实现的语音识别模块，用于识别与所述兴趣点的身份相关的语音。

15.根据权利要求7至14中任一项所述的***，其特征在于，还包括多模态响应解释模块，用于接收所述头部矢量、所述眼睛凝视矢量、所述手指指向矢量和所述识别语音中的至少一个，并根据所述接收到的所述头部矢量、所述眼睛凝视矢量、所述手指指向矢量和所述识别语音中的至少一个，推断所述方向响应矢量。

16.根据权利要求15所述的***，其特征在于，所述多模态响应解释模块使用神经网络实现。

17.一种识别自动驾驶车辆周围兴趣点的方法，其特征在于，包括：

从获得自所述自动驾驶车辆的乘客的数据中接收方向的指示，其中，所述数据与身体姿势和语音识别中的至少一个相关；

确定位于所述接收到的方向指示的方向上的兴趣点；

将所述确定的兴趣点输出到所述自动驾驶车辆内的输出设备。

18.根据权利要求17所述的方法，其特征在于，所述接收所述兴趣点所在方向的指示的步骤包括接收与所述乘客头部和眼睛位置相关的数据的步骤。

19.根据权利要求17或18所述的方法，其特征在于，所述接收所述兴趣点所在方向的指示的步骤包括接收和识别由所述乘客执行的指向手势的步骤。

20.根据权利要求17至19中任一项所述的方法，其特征在于，所述接收所述兴趣点所在方向的指示的步骤包括接收和识别所述乘客的描述所述兴趣点所在方向的语音的步骤。

21.根据权利要求17至20中任一项所述的方法，其特征在于，所述确定位于所述接收到的方向指示的方向上的所述兴趣点的步骤包括接收到的与所述自动驾驶车辆周围存储的兴趣点相关的数据的步骤。

22.一种存储计算机指令的计算机可读介质，其特征在于，所述计算机指令由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤：

从接收自自动驾驶车辆的乘客的与身体姿势和语音识别中的至少一个相关的数据中接收兴趣点所在的方向的指示；

确定位于所述接收到的方向指示的方向上的兴趣点；

将与所述确定的兴趣点相关的信息输出到所述自动驾驶车辆内的输出设备。