CN110890091A

CN110890091A - 车辆语言处理

Info

Publication number: CN110890091A
Application number: CN201910848707.0A
Authority: CN
Inventors: 普拉韦恩·纳拉亚南; 丽莎·斯卡里亚; 瑞恩·伯克; 弗朗索瓦·沙雷特; 普纳杰·查克拉瓦蒂; 考希克·巴拉科瑞斯南
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-09-10
Filing date: 2019-09-09
Publication date: 2020-03-17
Also published as: DE102019124155A1; US20200082817A1; US10891949B2

Abstract

本公开提供了“车辆语言处理”。一种计算***可以被编程为响应于发出口头语言提示而接收口头语言命令，并用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令。所述计算***还可以被编程为基于所述车辆命令来操作车辆。

Description

车辆语言处理

背景技术

车辆可以被装备为以自主驾驶模式和乘员驾驶模式这两种模式操作。车辆可以装备有计算装置、网络、传感器和控制器，以获取关于车辆环境的信息并基于所述信息来操作车辆。车辆的安全和舒适操作可取决于获取关于车辆环境的准确且及时的信息。车辆传感器可以提供关于要行驶的路线和车辆环境中要避开的对象的数据。车辆的安全且有效的操作可取决于当车辆正在道路上操作时获取关于路线和车辆环境中的对象的准确且及时的信息。

附图说明

图1是示例交通基础设施***的框图。

图2是示例车辆场景的图。

图3是用于处理口头语言的示例神经网络的图。

图4是用于处理口头语言的示例神经网络的图。

图5是用于处理口头语言的示例神经网络的图。

图6是基于口头语言操作车辆的示例过程的流程图。

技术领域

本发明涉及一种计算***，所述计算***可以被编程为响应于发出口头语言提示而接收口头语言命令，并用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令。所述计算***还可以被编程为基于所述车辆命令来操作车辆。

发明内容

一种方法包括：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。

所述方法可包括在用GAN处理之前将口头语言命令变换为梅尔频率样本。

可以通过在用GAN处理之前沿着y轴卷积梅尔值来将梅尔频率样本各自压缩成单个向量。

梅尔频率标度可以是口头语言命令频率在非线性频率标度上的对数功率谱。

所述方法可包括使用多个记录的口头语言命令、将记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练GAN以确定真实或虚假的口头语言。

操作车辆可包括基于车辆命令确定路径多项式。

如权利要求1所述的方法，其中操作所述车辆包括基于车辆传感器数据确定认知映射图。

所述方法可包括用GAN处理合成语言数据以确定口头语言提示。

车辆命令可以是对车辆的目标指向行为的请求。

一种***包括：处理器；和存储器，其被编程为执行以下操作：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。

所述***可包括在用GAN处理之前将口头语言命令变换为梅尔频率样本。

所述***可包括使用多个记录的口头语言命令、将记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练GAN以确定真实或虚假的口头语言。

操作车辆可包括基于车辆命令确定路径多项式。

操作车辆可包括基于车辆传感器数据确定认知映射图。

所述***可包括用GAN处理合成语言数据以确定口头语言提示。

车辆命令可以是对车辆的目标指向行为的请求。

一种***,其包括：用于控制第二车辆转向、制动和动力传动***的装置；计算机装置，其用于：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆；和用于控制第二车辆转向、制动和动力传动***的装置。

具体实施方式

车辆可以被装备为以自主驾驶模式和乘员驾驶模式这两种模式操作。我们所说的半自主或完全自主模式是指一种操作模式，在所述操作模式中，车辆可由计算装置作为具有传感器和控制器的车辆信息***的一部分来驾驶。车辆可以被占用或未被占用，但是在任何一种情况下，车辆都可以在没有乘员帮助的情况下驾驶。出于本公开的目的，自主模式被定义为其中车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动***)、制动和转向中的每一者由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一者或两者。在非自主车辆中，这些都不是由计算机控制的。

例如，车辆中的计算装置可以被编程为获取关于车辆的外部环境的数据并使用所述数据来确定用于以自主或半自主模式操作车辆的轨迹，其中计算装置可以向控制器提供信息以在包括其他车辆的交通中的道路上操作车辆。基于传感器数据，计算装置可以确定在存在其他车辆和行人的情况下车辆行驶以到达道路上的目的地的路径多项式，其中路径多项式是描述当车辆从道路上的第一位置移动到道路上的第二位置时连接车辆的连续轨迹的线的多项式函数。例如，可以确定路径多项式以将车辆保持在道路内并避免与包括其他车辆和行人在内的对象碰撞。车辆中的计算装置可以被编程为以口头语言的形式发出关于车辆操作的音频提示。计算装置可以口头语言的形式接收对音频提示的响应，并处理口头语言以确定用于操作车辆的路径多项式。

本文公开了一种方法，所述方法包括：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。可以在用GAN处理之前将口头语言命令变换为梅尔频率样本。可以通过在用GAN处理之前沿着y轴卷积梅尔值来将梅尔频率样本各自压缩成单个向量。梅尔频率标度是口头语言命令频率在非线性频率标度上的对数功率谱。用GAN处理梅尔频率样本的第一步骤可以是在X方向上执行1D卷积以将梅尔频率样本的数量减少到大于1的数量。用GAN处理梅尔频率样本的第二步骤是在Y方向上执行1D卷积。用GAN处理梅尔频率样本的第三步骤是用神经网络处理梅尔频率样本。

可以使用多个记录的口头语言命令、将记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练GAN以确定真实或虚假的口头语言。可以通过将基于来自所述GAN的鉴别器部分的输出的损失函数与基于地面实况的损失函数求和来计算所述损失函数。操作车辆可包括基于车辆命令确定路径多项式。操作车辆可包括基于车辆传感器数据确定认知映射图。操作车辆可包括确定认知映射图上的目的地位置并确定将允许车辆到达目的地位置的路径多项式。可以用GAN来处理合成语言数据以确定口头语言提示。车辆命令可以是对车辆的目标指向行为的请求。

还公开了一种存储用于执行上述方法步骤中的一些或全部的程序指令的计算机可读介质。还公开了一种被编程为执行上述方法步骤中的一些或全部的计算机，其包括计算机设备，所述计算机设备被编程为执行以下操作：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。可以在用GAN处理之前将口头语言命令变换为梅尔频率样本。可以通过在用GAN处理之前沿着y轴对梅尔值求和来将梅尔频率样本各自压缩成单个向量。梅尔频率标度是口头语言命令频率在非线性频率标度上的对数功率谱。用GAN处理梅尔频率样本的第一步骤可以是在X方向上执行1D卷积以将梅尔频率样本的数量减少到大于1的数量。用GAN处理梅尔频率样本的第二步骤是在Y方向上执行1D卷积。用GAN处理梅尔频率样本的第三步骤是用神经网络处理梅尔频率样本。

所述计算机设备还可以被编程为使用多个记录的口头语言命令、将记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练GAN以确定真实或虚假的口头语言。可以通过将基于来自所述GAN的鉴别器部分的输出的损失函数与基于地面实况的损失函数求和来计算所述损失函数。操作车辆可包括基于车辆命令确定路径多项式。操作车辆可包括基于车辆传感器数据确定认知映射图。操作车辆可包括确定认知映射图上的目的地位置并确定将允许车辆到达目的地位置的路径多项式。可以用GAN来处理合成语言数据以确定口头语言提示。车辆命令可以是对车辆的目标指向行为的请求。

图1是交通基础设施***100的图，所述交通基础设施***100包括以自主驾驶(“自主”本身在本公开中意味着“全自主”)和乘员驾驶(也称为非自主)模式操作的车辆110。车辆110还包括一个或多个计算装置115，用于在自主操作期间执行用于驾驶车辆110的计算。计算装置115可以从传感器116接收关于车辆操作的信息。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。

计算装置115包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质，并且存储包括如本文所公开的可由处理器执行的用于执行各种操作的指令。例如，计算装置115可包括编程为操作车辆制动器、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110中的加速度)、转向、气候控制、车内灯和/或车外灯等中的一者或多者，以及确定计算装置115(如与人类操作员相对地)是否以及何时控制此类操作。

计算装置115可包括或者例如经由如下面进一步描述的车辆通信总线通信地耦合到包括在车辆110中用于监测和/或控制各种车辆部件(例如，动力传动***控制器112、制动控制器113、转向控制器114等)的一个以上的计算装置，例如控制器等。计算装置115通常被布置用于车辆通信网络(例如，包括车辆110中的总线，诸如控制器局域网(CAN)等)上的通信；车辆110网络可以另外地或替代地包括诸如已知的例如以太网或其他通信协议的有线或无线通信机制。

经由车辆网络，计算装置115可以向车辆中的各种装置发送消息和/或从例如控制器、致动器、传感器(包括传感器116)等的各种装置接收消息。替代地或另外地，在计算装置115实际上包括多个装置的情况下，车辆通信网络可以用于在本公开中表示为计算装置115的装置之间的通信。此外，如下所述，各种控制器或传感元件(诸如传感器116)可以经由车辆通信网络向计算装置115提供数据。

另外，计算装置115可以被配置为经由车辆对基础设施(V-to-I)接口111经由网络130与远程服务器计算机120(例如，云服务器)通信，如下面描述的，网络130包括允许计算装置115经由例如无线因特网(Wi-Fi)或蜂窝网络的网络130与远程服务器计算机120通信的硬件、固件和软件。V-to-I接口111可以相应地包括处理器、存储器、收发器等，V-to-I接口111被配置为利用各种有线和/或无线网络技术，例如蜂窝、蓝牙

和有线和/或无线分组网络。计算装置115可以被配置为例如根据专用短程通信(DSRC)等(例如，在附近车辆110之间临时形成或者通过基于基础设施的网络形成)，使用车辆对车辆(V-to-V)网络，通过V-to-I接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以经由将信息存储在非易失性存储器中来记录信息，以便稍后检索并经由车辆通信网络和车辆对基础设施(V-to-I)接口111传输到服务器计算机120或用户移动装置160。

如已经提到的，通常包括在存储在存储器中且可由计算装置115的处理器执行的指令中的是用于操作一个或多个车辆110部件(例如，制动、转向、推进等)而无需人类操作者的干预的编程。使用在计算装置115中接收的数据，例如来自传感器116、服务器计算机120等的传感器数据，计算装置115可以在没有驾驶员操作车辆110的情况下进行各种确定和/或控制各种车辆110部件和/或操作。例如，计算装置115可包括编程以调节车辆110的操作行为(即，车辆110操作的物理表现)，诸如速度、加速度、减速度、转向等，以及战术行为(即，通常以意图实现路线的安全和高效遍历的方式的操作行为的控制)，诸如车辆之间的距离和/或车辆之间的时间量、车道变换、车辆之间的最小间隙、穿过路径最小的左转、到达特定位置的时间和穿过交叉路口的交叉路口(无信号)最小到达时间。

如本文所使用的术语，控制器包括通常被编程为控制特定车辆子***的计算装置。示例包括动力传动***控制器112、制动控制器113和转向控制器114。控制器可以是诸如已知的可能包括如本文所述的另外编程的电子控制单元(ECU)。控制器可通信地连接到计算装置115并从计算装置115接收指令以根据指令致动子***。例如，制动控制器113可以从计算装置115接收指令来操作车辆110的制动器。

用于车辆110的一个或多个控制器112、113、114可包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动***控制器112、一个或多个制动控制器113以及一个或多个转向控制器114。控制器112、113、114中的每一个可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可以被编程并连接到车辆110的通信总线，诸如控制器局域网(CAN)总线或本地互连网络(LIN)总线，以接收来自计算机115的指令并基于所述指令控制致动器。

传感器116可包括已知的经由车辆通信总线提供数据的各种装置。例如，固定到车辆110的前保险杠(未示出)的雷达可以提供从车辆110到车辆110前方的下一车辆的距离，或者设置在车辆110中的全球定位***(GPS)传感器可以提供车辆110的地理坐标。计算装置115可以使用由雷达和/或其他传感器116提供的距离和/或由GPS传感器提供的地理坐标来自主或半自主地操作车辆110。

车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于陆地的车辆110(例如，客车、轻型卡车等)。车辆110包括一个或多个传感器116、V-to-I接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110正在其中操作的环境有关的数据。作为示例而非限制，传感器116可包括例如高度计、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、诸如开关的机械传感器等。传感器116可以用于感测车辆110正在其中操作的环境，例如，传感器116可检测例如天气条件(降水、外部环境温度等)、道路的坡度、道路的位置(例如，使用道路边缘、车道标记等)、或者诸如邻近车辆110的目标对象的位置。传感器116还可以用于收集包括与车辆110的操作有关的动态车辆110数据的数据，诸如速度、横摆率、转向角、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率水平、部件之间的连接性、以及车辆110的部件的准确和及时的性能。

图2是包括在车道204中的道路202上操作的车辆110的示例交通场景200的图。车辆110的操作可由路径多项式210表示。车辆向量是描述包括车辆轨迹的车辆的位置、定位和运动的数据值的集合，其中车辆轨迹包括车辆3D姿态和车辆3D加速度，其中3D姿态包括相对于诸如纬度、经度和高度的坐标系的x、y和z位置坐标以及翻滚、俯仰和横摆旋转坐标，并且3D加速度包括在x、y、z、线性方向和翻滚、俯仰和横摆旋转方向上的加速度。路径多项式是在包括估计或预测的车辆轨迹的车辆向量上计算的三次或更少的多项式函数。例如，路径多项式可以基于当前车辆位置和目的地位置来估计或预测包括车辆位置、速度和方向的车辆轨迹。为了计算的目的，3D车辆轨迹数据可以表示为平行于道路的平面中的2D位置、平面中的2D方向、2D方向上的速度以及相对于车辆110的2D方向的横向加速度和纵向加速度。车辆110中的计算装置115可以通过估计车辆110的未来轨迹来确定路径多项式。可以基于交通场景200中确定的目的地位置或目标位置来估计未来轨迹，然后确定以目标速度到达目的地位置或目标的一系列位置，同时将由于转向、制动和动力传动***导致的横向(横摆)和纵向(x)加速度限制到用户输入极限。然后，计算装置115可以使用路径多项式来确定用于控制器112、113、114的命令，以基于将命令应用于预测车辆110行为的车辆110的数学模型并选择将导致车辆110沿着路径多项式操作的命令来致使车辆动力传动***、转向和制动操作。

示例交通场景200中包括在道路202上操作的另一车辆208。在此示例中，车辆110可以大于另一车辆208的速度行驶。如果车辆110不改变其包括速度和方向的轨迹，则可能发生与另一车辆208的碰撞或接近碰撞。在此示例中，车辆110可以减速以基本上匹配另一车辆208的速度，或者可以执行车道变换操纵(即，用于超车)，如路径多项式210所示。计算装置115可以被编程为确定如何响应这种状况，或者基于车辆110传感器116数据减速以匹配交通或者超过另一车辆208，并基于用户输入并且存储在计算装置115存储器中的先前确定的一组标准来选择响应。这些标准可以被输入到基于规则的有限状态机，计算装置115可以使用所述有限状态机来做出关于交通状况的决定。例如，如果车辆110传感器116指示相邻车道206中不存在交通，则计算装置115可以通过执行如路径多项式210所示的车道变换操纵来维持车辆110的速度。如果车辆110传感器116指示相邻车道206被其他车辆占用，则计算装置115可以命令车辆110维持在车道204中并减速以维持与另一车辆208的最小距离。使用本文讨论的技术，通过使计算装置115合成并发出口头语言提示并接收和解译口头语言响应且由此确定针对交通状况采取哪种动作而至少不是完全依赖于先前确定的标准来改进车辆110的操作。

图3是示例神经网络(NN)300的图。计算装置115可以使用NN300通过处理梅尔频率数据302来合成口头语言提示和解译口头语言响应，所述梅尔频率数据302是用对数功率变换变换的口头语言音频频谱数据310，其中变换结果在非线性梅尔频率标度上编码，其中梅尔标度是近似人类听觉响应的基于对数的标度。由于梅尔频率数据302可以表示与音频频谱数据310相比存储大小减少了90％以上的音频数据，因此合成口头语言提示可以作为梅尔频率数据302存储和处理。合成口头语言提示可以作为梅尔频率数据302存储在计算装置115的存储器中，并由NN 300处理以产生音频频谱数据310，所述音频频谱数据310可由具有适当音频***(例如音频放大器和扬声器)的计算装置输出，以发出可由车辆110中或附近的乘员听到的口头语言提示。合成口头语言提示是由计算装置115使用计算机生成的语音技术生成的口头语言提示。

NN 330包括卷积滤波器组(CFB)304和双向长短期存储器(BLSTM)308。NN 308可以基于可从加利福尼亚州山景城的GOOGLETM公司获得的用于处理音频信号的递归神经网络(称为CBHG网络)。NN 330可以输入梅尔频率数据302并输出对应于在梅尔频率数据302中编码的口头语言的音频频谱数据310。梅尔频率数据302是一维向量量的序列，其中条目的数量小于对应音频频谱样本中的条目的数量。在此示例中，梅尔频率数据302可以具有每个一维向量约80个条目。可由计算装置115将表示口头语言的文本转换成梅尔频率数据302来确定梅尔频率数据302。可以基于先前确定的规则将表示口头语言的文本转换成梅尔频率数据302，所述规则确定对应于文本的特定部分的梅尔频率数据302。可以通过将文本与对应于正大声说出的文本的声音的音频频谱数据310匹配，然后变换音频频谱数据310以确定对应于音频频谱数据310的梅尔频率数据302来预先确定这些规则。梅尔频率数据302可以存储在根据相对应文本索引的计算装置115存储器中，并基于所述文本被调用。

CFB 304输入梅尔频率数据302并执行一维卷积以对存在于梅尔频率数据302中的上下文信息进行建模。例如，通过CFB 304对梅尔频率数据302进行滤波，以增强梅尔频率数据302样本之间的时间相关性。音素是口头语言的基本单位。口头语言可以被视为音素流，其中每个音素的音高、音量和声音受到在口头语言流中的音素周围的音素的影响。由于梅尔频率数据302基于变换的音素，因此在时间(x)方向上对梅尔频率数据302进行滤波可以向梅尔频率数据302提供上下文以将梅尔频率数据302变换为修改的梅尔频率数据306，所述修改的梅尔频率数据306包括由CFB 304明确建模的本地信息和上下文信息。

修改的梅尔频率数据306被输出到BLSTM 308以转换成音频频谱数据310。BLSTM308是递归神经网络的示例，其中计算节点连接在一起以形成有向图，并且信息在计算节点之间在指定方向上行进以允许BLSTM 308处理时间数据。BLSTM 308将修改的梅尔频率数据306处理为时间数据，其中数据流中的数据的位置指示数据发生的时间序列，如修改的梅尔频率数据306。BLSTM 308的处理节点可以存储和调用先前的结果并将它们应用于当前数据。这允许BLSTM 308通过将来自当前修改的梅尔频率数据306向量的数据与来自在当前修改的梅尔频率数据306向量之前和之后发生的修改的梅尔频率数据306向量的数据组合来处理像修改的梅尔频率数据306那样的时间数据。

从NN 300输出的音频频谱数据310是功率谱的形式，其中音频频谱数据310等于基础音频波形的绝对值或平方。可由计算装置115使用格里芬-林变换将音频频谱数据310变换为音频波形。格里芬-林变换将像音频频谱数据310那样的功率谱数据变换为音频波形，所述音频波形可由车辆音频***发出，以使用短期傅立叶变换来再现口头语言，从而从输入信号中确定音频频谱数据310的相位信息且由此允许计算装置115将音频频谱数据310变换为音频波形，以作为口头语言提示输出。

图4是示例广义对抗网络(GAN)400的图。GAN 400包括生成器NN 300和鉴别器DIS412。GAN 400用于通过确定作为在训练时间与梅尔频率数据302一起输入到NN 300的反馈的损失函数414来训练NN 300。GAN 400将来自NN 300的输出音频频谱数据310分类为“真实的”，意味着音频频谱数据310是口头语言，或“虚假的”，意味着音频频谱数据310不是口头语言。响应于梅尔频率数据302输入从NN 330输出的音频频谱数据310被输入到DIS 412，以确定可以用作训练NN 300的损失函数414的1比特(真实/虚假)数量。在训练期间，损失函数414被反馈到NN 300，以根据下面的等式(2)与输入302组合以正性地或负性地增强产生音频频谱数据310的NN 300的计算节点(神经元)的增益和偏差参数，由此训练NN 300。在此示例中，NN 300和GAN 412被配置为广义对抗网络的生成器和鉴别器，其中生成器和鉴别器通过以下方式来训练：生成器创建音频样本，且鉴别器通过输出1比特(真实/虚假)数量来将样本分类为真实或虚假。生成器可以基于输入的梅尔频率数据302来创建音频样本。梅尔频率数据302可以伴随有地面实况，地面实况是对应于由用户输入确定的梅尔频率数据302的音频样本，例如人类收听者可以收听由NN 300生成器生成的音频样本，并确定它们是“真实的”还是“虚假的”。通过人类用户输入评估音频样本的结果是对应于梅尔频率数据302的地面实况，并且在训练时被输入到NN 300。

损失函数414可以与基于地面实况的损失函数L1组合。基于地面实况的损失函数L1将音频频谱数据300分类为“真实的”，意味着听到基于音频频谱数据300的音频波形的人类收听者将认为它是口头语言，或“虚假的”，此时人类收听者认为它不是口头语言。地面实况是已使用独立于正被训练的装置(在此示例中为NN 300)的装置获取和处理的数据。例如，可以通过以下方式来确定基于地面实况的损失函数：将音频频谱数据300转换成音频波形，放大音频波形并通过扬声器将其播放给多个人类收听者，并且基于对多个人类收听者的意见的统计分析来确定损失函数L1(真实/虚假)。本文公开的技术通过除了损失函数L1之外还提供损失函数414来改进NN 300的训练，例如，在其中音频频谱数据310不包括在损失函数L、L2的训练集中从而使得它们不存在的示例中，损失函数L1可以提供损失函数414。

图5是DIS 412的图，包括y方向FCY 516上的完全连接的神经网络、x方向1DX上的一维卷积以及卷积神经网络CNN 524。此架构允许通过将音频频谱数据310处理为仅在时间(x)方向上的平移不变量来处理音频频谱数据310以产生损失函数414。因此，仅允许在x方向上卷积。频率方向(y)必须作为一维通道单独处理。在鉴别器的卷积层中增加滤波器的数量，以便以增加的计算成本学习更多的特征。在此示例中，由于频谱图中的含有能量的分格(bin)的数量明显小于频谱图的大小，因此可以通过FCY 516完全连接层在y方向上折叠分格大小。压缩音频频谱518的竖直维度从输入音频频谱数据310减少但保持大于1。本文描述的技术通过允许鉴别器DIS 412具有足够丰富的特征描述，同时与使用原始的未压缩频谱图相比还降低了计算成本，来改进损失函数414的计算。

1DX 520对压缩的音频频谱数据518进行滤波以形成滤波后的音频频谱数据522。对音频频谱数据518进行滤波可以移除信号噪声，且由此改进音频频谱数据518。滤波后的音频频谱数据522被传递到CNN 524，其中滤波后的音频频谱在被CNN 524的完全连接层处理之前由CNN 524的卷积层和汇集层处理，以确定损失函数：

其中L_GAN基于

CNN 524Dis(x)的输出为真实的预期对数概率或CNN 524Dis(x)的输出为虚假的预期对数概率来确定损失函数。为了训练NN 300，使用CNN524的第‘i’层来比较真实样本和虚假样本之间的差异。损失函数L_NN可以写成：

其中θ是允许保留基于地面实况的损失函数L1的一部分并基于用户输入的调谐参数，x_real，x_fake是由地面实况确定的真实样本和虚假样本，并且Dis_i是由如上所述的人类用户输入确定地面实况的CNN524的第i层的输出函数。

图6是关于图1至图6描述的用于基于响应于口头语言提示的口头语言命令基于车辆命令来操作车辆的过程600的流程的图。例如，过程600可由计算装置115的处理器实现，将来自传感器116的信息作为输入，并经由控制器112、113、114执行命令和发送控制信号。过程600包括以所公开的顺序采用的多个框。过程600还包括包含更少框的实现方式，或者可包括以不同顺序采用的框。

过程600开始于框602，其中车辆110中的计算装置115响应于口头语言提示而接收口头语言命令。可由计算装置115使用神经网络(NN)300来处理口头语言命令和口头语言提示两者。如上面关于图3至图5所讨论的，可以通过将NN 300包括在广义神经网络(GAN)400中来训练NN 300。口头语言提示可由包括在车辆110中的音频***(放大器和扬声器)发出。由计算装置115接收的响应可以是由人类或计算装置说出的口头命令。口头语言提示可以是对来自计算装置115的信息或方向的请求，并且口头语言命令可以是对口头语言提示的响应。例如，在图2的交通场景200中，车辆110中的计算装置115可以用口头语言提示“我们应减速还是超车？”来提醒车辆110的乘员。对口头语言提示的响应可以是口头语言命令“超车”，例如，其中计算装置115可以基于口头语言命令输入“超车”来确定对应于车道变换操纵的车辆命令。

在框604处，计算装置115可以使用NN 300来处理对应于常用口头命令的一系列梅尔频率样本。如上面关于图3所讨论的，当接收到口头语言命令时，计算装置可以使用非线性傅立叶变换将音频波形变换为梅尔频率数据302。使用GAN 400，计算装置115可以确定梅尔频率数据302是否不对应于口头语言，并且因此不应被进一步处理，或者梅尔频率数据302是否对应于口头语言，并且因此应被处理以确定口头语言是否对应于车辆命令。例如，可以用被训练来识别梅尔频率数据302中的车辆命令的深层神经网络来处理，或者用被编程为检测梅尔频率数据302中的关键词或关键词组合的基于规则的有限状态机来处理梅尔频率数据302。

在框606处，计算装置115处理在框604处确定的车辆命令以基于车辆命令来操作车辆110。计算装置可以基于车辆命令来确定如图2所示的路径多项式210。在图2中的交通场景200中，通过选择车道206中的目的地位置并确定在路径多项式210上操作车辆110所需的横向和纵向加速度以及车辆速度，可以将车辆命令“执行车道变换操纵”变换为路径多项式210，所述路径多项式210终止于目的地位置，其中车辆110维持目标速度和方向，同时保持在加速度下限和上限内，例如，即，计算装置115可以被编程为可被称为目标指向行为的内容。然后，计算装置115可以向控制器112、113、114发出命令以控制车辆110的动力传动***、转向和制动，以致使车辆110沿着路径多项式210操作。在框608之后，过程600结束。

诸如本文所讨论的那些的计算装置通常各自包括可由一个或多个计算装置(诸如上文所标识的那些计算装置)执行并且用于实施上面描述的过程的框或步骤的命令。例如，上面讨论的过程框可以体现为计算机可执行命令。

计算机可执行命令可以从使用各种编程语言和/或技术创建的计算机程序中编译或解译，这些编程语言和/或技术单独地或组合地包括但不限于Java^TM、C、C++、VisualBasic、Java Script、Perl、HTML等。通常，处理器(例如，微处理器)例如从存储器、计算机可读介质等接收命令，并执行这些命令，由此执行一个或多个过程，包括本文描述的一个或多个过程。这种命令和其他数据可以存储在文件中并使用各种计算机可读介质传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等的计算机可读介质上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可以采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其他持久存储器。非易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、打孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH EEPROM、任何其他存储器芯片或盒式磁带、或者计算机可以读取的任何其他介质。

除非本文中作出相反的明确指示，否则权利要求中使用的所有术语意图给出本领域技术人员所理解的它们的简单和普通的含义。特别地，除非权利要求陈述了相反的明确限制，否则诸如“一”、“该”、“所述”等单数冠词的使用应被理解为陈述一个或多个所指示的要素。

本文使用的术语“示例性”是表示示例的含义，例如，对“示例性控件(widget)”的引用应被解读为简单地指代控件的示例。

副词“近似地”修饰值或结果意味着形状、结构、测量、值、确定、计算等可能因为材料、加工、制造、传感器测量、计算、处理时间、通信时间等方面的缺陷而偏离精确描述的几何形状、距离、测量、值、确定、计算等。

在附图中，相同的附图标记指示相同的要素。此外，可以改变这些要素中的一些或全部。关于本文中所描述的介质、过程、***、方法等，应理解，虽然已将此类过程的步骤或框描述为根据某一有序序列发生，但此类过程可用以不同于本文中所描述的顺序的顺序执行的所描述的步骤来实践。还应理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略本文描述的某些步骤。换句话说，本文中的过程的描述是出于说明某些实施例的目的而提供的，并且决不应被解释为限制所要求保护的发明。

根据本发明，一种方法包括：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。

根据实施例，本发明的特征还在于，在用GAN处理之前将口头语言命令变换为梅尔频率样本。

根据实施例，通过在用GAN处理之前沿着y轴卷积梅尔值，将梅尔频率样本各自压缩成单个向量。

根据实施例，梅尔频率标度是口头语言命令频率在非线性频率标度上的对数功率谱。

根据实施例，本发明的特征还在于使用多个记录的口头语言命令、将记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练GAN以确定真实或虚假的口头语言。

根据实施例，操作车辆包括基于车辆命令确定路径多项式。

根据实施例，操作车辆包括基于车辆传感器数据确定认知映射图。

根据实施例，本发明的特征还在于用GAN处理合成语言数据以确定口头语言提示。

根据实施例，车辆命令是对车辆的目标指向行为的请求。

根据本发明，提供了一种***，其包括：处理器；存储器，其被编程为执行以下操作：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆。

根据实施例，操作车辆包括基于车辆命令确定路径多项式。

根据实施例，车辆命令是对车辆的目标指向行为的请求。

根据本发明，提供了一种***，其具有：用于控制第二车辆转向、制动和动力传动***的装置；计算机装置，其用于：响应于发出口头语言提示而接收口头语言命令；用广义对抗神经网络(GAN)处理口头语言命令以确定车辆命令；以及基于所述车辆命令来操作车辆；和用于控制第二车辆转向、制动和动力传动***的装置。

根据实施例，本发明的特征还在于在用GAN处理之前将口头语言命令变换为梅尔频率样本。

Claims

1.一种方法，其包括：

响应于发出口头语言提示而接收口头语言命令；

用广义对抗神经网络(GAN)处理所述口头语言命令以确定车辆命令；和

基于所述车辆命令来操作车辆。

2.如权利要求1所述的方法，其还包括在用所述GAN处理之前，将所述口头语言命令变换为梅尔频率样本。

3.如权利要求2所述的方法，其中通过在用GAN处理之前沿着y轴卷积梅尔值，将所述梅尔频率样本各自压缩成单个向量。

4.如权利要求3所述的方法，其中梅尔频率标度是口头语言命令频率在非线性频率标度上的对数功率谱。

5.如权利要求4所述的方法，其中用GAN处理所述梅尔频率样本的第一步骤是在X方向上执行1D卷积，以将梅尔频率样本的数量减少到大于1的数量。

6.如权利要求5所述的方法，其中用GAN处理所述梅尔频率样本的第二步骤是在Y方向上执行1D卷积。

7.如权利要求6所述的方法，其中用GAN处理所述梅尔频率样本的第三步骤是用神经网络处理所述梅尔频率样本。

8.如权利要求1所述的方法，其还包括使用多个记录的口头语言命令、将所述记录的口头语言命令识别为真实或虚假的地面实况以及基于地面实况的损失函数来训练所述GAN以确定真实或虚假的口头语言。

9.如权利要求5所述的方法，其中通过将基于来自所述GAN的鉴别器部分的输出的损失函数与基于地面实况的损失函数求和来计算所述损失函数。

10.如权利要求1所述的方法，其中操作所述车辆包括基于所述车辆命令确定路径多项式。

11.如权利要求7所述的方法，其中操作所述车辆包括基于车辆传感器数据确定认知映射图。

12.如权利要求8所述的方法，其中操作所述车辆包括确定所述认知映射图上的目的地位置并确定将允许所述车辆到达所述目的地位置的路径多项式。

13.如权利要求1所述的方法，其还包括用GAN处理合成语言数据以确定所述口头语言提示。

14.如权利要求1所述的方法，其中所述车辆命令是对所述车辆的目标指向行为的请求。

15.一种***，其包括计算机，所述计算机被编程为执行如权利要求1至14中任一项所述的方法。