CN115064169B

CN115064169B - 语音交互方法、服务器和存储介质

Info

Publication number: CN115064169B
Application number: CN202210985588.5A
Authority: CN
Inventors: 赵群; 王亭玉; 丁鹏傑; 张天宇
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-13
Anticipated expiration: 2042-08-17
Also published as: CN115064169A

Abstract

本发明公开了一种语音交互方法、服务器和存储介质。该方法包括：接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，第一语音请求包括至少两个分句，每个分句与一个方向对应；确定第一语音请求中每个分句的第一视图调节角度和对应的第一视图调节距离；根据各个分句对应的第一视图调节角度和第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离；根据各个分句、目标视图调节角度和目标视图调节距离，对第一语音请求进行应用程序接口预测；选择预测到的应用程序接口下发至车辆完成语音交互。本发明可以实现对车载导航地图视图全方向任意角度的随意调整。

Description

语音交互方法、服务器和存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种语音交互方法、服务器和存储介质。

背景技术

在智能汽车场景中，导航是非常常见的车载场景。由于开车时，用户不方便触碰屏幕，不能方便的调整比例尺的大小。另外，即使用户通过语音输入“把比例尺设置为500m”，把“比例尺设置为1km”，由于用户对比例尺的大小并没有非常明确的感知，因此用户对于地图能放大的程度依旧模糊。

此外，当我们采用手机导航时，常常有查询周边的需求，此时可能的操作为“手滑动地图向屏幕的左边，或者上下滑动后再左右滑动，当目标调整到屏幕的合适位置时，再对地图进行放大”。然而，在车载场景下，地图视图的上下左右调节功能，尚未采用语音控制来实现，更不能实现通过语音对地图视图进行任意角度的拖拽。

发明内容

本发明实施方式提供一种语音交互方法、服务器和存储介质。

本发明提供一种语音交互方法。所述语音交互方法包括：接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，所述第一语音请求包括至少两个分句，每个分句与一个方向对应；确定所述第一语音请求中每个所述分句的第一视图调节角度和对应的第一视图调节距离；根据各个所述分句对应的所述第一视图调节角度和所述第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离；根据各个所述分句、所述目标视图调节角度和所述目标视图调节距离，对所述第一语音请求进行应用程序接口预测；选择预测到的应用程序接口下发至车辆完成语音交互。

如此，本发明的语音交互方法经过矢量合成的计算方式获取的目标视图调节角度和目标视图调节距离对第一语音请求进行应用程序接口预测并根据该预测到的应用程序接口下发至车辆以完成语音交互，实现对车载导航地图视图全方向任意角度的随意调整。

所述确定所述第一语音请求中每个所述分句的第一视图调节角度和对应的第一视图调节距离，包括：确定第一预设文本和视图角度的第一对应关系；根据所述第一对应关系确定每个所述分句对应的所述第一视图调节角度；根据所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离。

如此，可以确定第一预设文本和视图角度的第一对应关系，并根据第一对应关系确定每个分句对应的第一视图调节角度及根据第一预设文本的重复次数确定每个分句对应的第一视图调节距离，为后续计算目标视图调节角度和目标视图调节距离奠定了基础。

所述根据所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离，包括：确定每个分句中所述第一预设文本的重复次数；确定所述车辆导航地图的当前比例尺；根据所述当前比例尺和所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离。

如此，本发明可以先确定每个分句中第一预设文本的重复次数及确定车辆导航地图的当前比例尺的大小，然后确定在当前比例尺下单位刻度移动的距离，即，确定每个第一预设文本对应调节的单位刻度移动的距离，之后根据当前比例尺和第一预设文本的重复次数确定每个分句对应的第一视图调节距离，用户能够直观地感受到视野有移动的变化。

所述根据各个所述分句、所述目标视图调节角度和所述目标视图调节距离，对所述第一语音请求进行应用程序接口预测，包括：将各个所述分句进行编码得到第一词向量；将所述目标视图调节角度和目标视图调节距离映射为第一预设编码；拼接所述第一词向量和所述第一预设编码得到第一拼接特征向量；利用预测模型处理所述第一拼接特征向量以对所述第一语音请求进行应用程序接口预测。

如此，本发明的语音交互方法中用户能够利用预测模型处理第一拼接特征向量对第一语音请求预测得到应用程序接口，实现对地图视图上下左右的全方向调整及对地图视图的任意角度的调整。

本申请还提供一种语音交互方法。所述语音交互方法包括：接收车辆转发的用户对车辆导航地图包括进行第一意图调节和第二意图调节的第二语音请求，所述第二语音请求至少包括与所述第一意图调节连续至少两个方向对应的第一分句和与所述第二意图对应的第二分句；确定所述第二语音请求中每个所述第一分句的第二视图调节角度和对应的第二视图调节距离；根据各个所述第一分句对应的所述第二视图调节角度和所述第二视图调节距离，进行矢量合成得到第二目标视图调节角度和第二目标视图调节距离；根据所述第二目标视图调节角度和所述第二目标视图调节距离，对所述第一分句进行应用程序接口预测得到第一应用程序接口；根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口；选择所述第一应用程序接口和所述第二应用程序接口下发至车辆完成语音交互。

如此，本发明可以调用第一应用程序接口实现对具有第一意图和第二意图的两种调节意图的第二语音请求的应用程序接口预测得到第二应用程序接口，实现跨意图的实体继承，从而快速的得到第二应用程序接口，完成语音交互。

所述根据所述第二目标视图调节角度和所述第二目标视图调节距离，对所述第一分句进行应用程序接口预测得到第一应用程序接口，包括：将所述第一分句进行编码得到第二词向量；将所述第二视图调节角度和第二视图调节距离映射为第二预设编码；拼接所述第二词向量和所述第二预设编码得到第二拼接特征向量；利用预测模型处理所述第二拼接特征向量以对所述第一分句进行应用程序接口预测。

如此，本发明的语音交互方法中用户能够利用预测模型处理第二拼接特征向量对第二语音请求中的第一分句预测得到第一应用程序接口，实现第二语音请求中对地图视图上下左右的全方向调整及对地图视图的任意角度的调整的第一意图。

所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口，包括：根据所述第一应用程序接口的参数名称和参数取值对所述第二分句进行改写和槽位识别生成新的第二分句；对所述新的第二分句进行应用程序接口预测；根据所述第一应用程序接口的参数名称和参数取值以及所述槽位识别的结果，选择预测的应用程序接口执行应用程序接口参数填充得到所述第二应用程序接口。

如此，当用户语音请求中两种意图的分句交替出现时，可以采用基于历史的第一应用程序接口快速的进行第一应用程序接口调用，从而得到第二应用程序接口。

所述对所述新的第二分句进行应用程序接口预测，包括：将所述新的第二分句作为文本序列进行编码得到第三词向量；利用预设模型对所述第三词向量进行处理以对所述新的第二分句进行应用程序接口预测口。

如此，可以利用预设模型对第三词向量进行处理以对新的第二分句进行应用程序接口预测口，在实现对地图视图上下左右的全方向调整及对地图视图的任意角度的调整的同时，实现对地图比例尺缩放的调整。

所述第二语音请求包括连续两个比例尺调节范围对应的所述第二分句，所述语音交互方法包括：在所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口的步骤之前，确定各个所述第二分句对应的比例尺的调节方向和调节精度；根据各个所述第二分句对应的所述调节方向和所述调节精度，进行叠加得到目标调节方向和目标调节精度。

如此，在第二语音请求中包括地图比例尺缩放调节的连续语音指令时，也可以先对该第二语音请求中连续的第二分句进行相加得到目标调节方向和目标调节精度，以便于快速得到第二分句对应的第二应用程序接口。

所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口，包括：根据所述第一应用程序接口、所述目标调节方向和所述目标调节精度，对所述第二分句进行应用程序接口预测得到所述第二应用程序接口。

如此，本发明基于历史应用程序接口快速的进行应用程序接口的调用，实现快速的实体继承，快速得到本轮的应用程序接口。

本申请还提供一种服务器。所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

如此，本发明的服务器应用上述语音交互方法经过矢量合成的计算方式获取的目标视图调节角度和目标视图调节距离对第一语音请求进行应用程序接口预测并根据该预测到的应用程序接口下发至车辆以完成语音交互，实现对车载导航地图视图全方向任意角度的随意调整。

本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

如此，本发明的计算机可读存储介质应用上述语音交互方法经过矢量合成的计算方式获取的目标视图调节角度和目标视图调节距离对第一语音请求进行应用程序接口预测并根据该预测到的应用程序接口下发至车辆以完成语音交互，实现对车载导航地图视图全方向任意角度的随意调整。

本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的语音交互方法的流程示意图之一；

图2是本发明的语音交互方法的场景示意图之一；

图3是本发明的语音交互方法的场景示意图之二；

图4是本发明的语音交互方法的流程示意图之二；

图5是本发明的语音交互方法的流程示意图之三；

图6是本发明的语音交互方法的流程示意图之四；

图7是本发明的语音交互方法的流程示意图之五；

图8是本发明的语音交互方法的流程示意图之六；

图9是本发明的语音交互方法的流程示意图之七；

图10是本发明的语音交互方法的流程示意图之八；

图11是本发明的语音交互方法的流程示意图之九。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，本发明提供了一种语音交互方法。该语音交互方法包括：

01：接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，第一语音请求包括至少两个分句，每个分句与一个方向对应；

02：确定第一语音请求中每个分句的第一视图调节角度和对应的第一视图调节距离；

03：根据各个分句对应的第一视图调节角度和第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离；

04：根据各个分句、目标视图调节角度和目标视图调节距离，对第一语音请求进行应用程序接口预测；

05：选择预测到的应用程序接口下发至车辆完成语音交互。

本发明提供一种服务器。服务器包括处理器和存储器，存储器上存储有计算机程序。处理器用于接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，第一语音请求包括至少两个分句，每个分句与一个方向对应；确定第一语音请求中每个分句的第一视图调节角度和对应的第一视图调节距离；根据各个分句对应的第一视图调节角度和第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离；根据各个分句、目标视图调节角度和目标视图调节距离，对第一语音请求进行应用程序接口预测；选择预测到的应用程序接口下发至车辆完成语音交互。

首先，接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，第一语音请求包括至少两个分句，每个分句与一个方向对应。分句包括“地图上上上”、“上上上”、“地图下下下”和“下下下”等具有叠词的句子。例如，请参阅图2，第一轮语音请求为“地图上上上，地图下下下”，具有两个分句，其中“地图上上上”与地图中0°坐标系的方向对应，“地图下下下”与地图中180°坐标系的方向对应。又例如，第一轮语音请求为“地图上上上，地图下下下，地图左左左，地图右右右”，具有四个分句，其中“地图上上上”与地图中0°坐标系的方向对应，“地图下下下”与地图中180°坐标系的方向对应，“地图左左左”与地图中270°坐标系的方向对应，“地图右右右”与地图中90°坐标系的方向对应。

在其他实施例中，第一语音请求的分句中“上”、“向上”、“往上”和“上一点”等对应的视图调节角度为0°，“右”、“向右”、“往右”和“右一点”等对应的视图调节角度为90°，“下”、“向下”、“往下”和“下一点”等对应的视图调节角度为180°，“左”、“向左”、“往左”和“左一点”等对应的视图调节角度为270°。

然后，确定第一语音请求中每个分句的第一视图调节角度和对应的第一视图调节距离。例如，分句“地图上上上”的第一视图调节角度为0°，对应的第一视图调节距离为3个‘上’对应调节的刻度距离，例如一个‘上’对应调节1个刻度的距离，则3个‘上’对应调节3个刻度的距离。分句“地图下下下”的第一视图调节角度为180°，对应的第一视图调节距离为3个‘下’对应调节的刻度距离，例如一个‘下’对应调节1个刻度的距离，则3个‘下’对应调节3个刻度的距离。分句“地图左左左”的第一视图调节角度为270°，对应的第一视图调节距离为3个‘左’对应调节的刻度距离，例如一个‘左’对应调节1个刻度的距离，则3个‘左’对应调节3个刻度的距离。分句“地图右右右”的第一视图调节角度为90°，对应的第一视图调节距离为3个‘右’对应调节的刻度距离，例如一个‘右’对应调节1个刻度的距离，则3个‘右’对应调节3个刻度的距离。

接着，根据各个分句对应的第一视图调节角度和第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离。例如，当第一语音请求为“地图上上上，再右右右”，实际上最终调整的目标视图调节距离为右上3√2个单位，即为在当前地图的比例尺下，对应的3√2个单位距离，目标视图调节角度为45°，如图3所示。

最后，根据各个分句、目标视图调节角度和目标视图调节距离，对第一语音请求进行应用程序接口（Application Programming Interface，API）预测，选择预测到的应用程序接口下发至车辆完成语音交互。

可以理解地，由于本发明的语音请求例如“地图上上上”等为带有叠词的语音请求，无需用户语音输入准确的比例尺数据，即无需用户语音输入“把比例尺设置为500m”，把“比例尺设置为1km”，避免了用户对比例尺的大小没有非常明确的感知，导致用户对于地图能放大的程度依旧模糊的问题，即，根据本发明的语音请求能准确地放大或缩小地图的比例尺。

请参阅图4，步骤02包括：

021：确定第一预设文本和视图角度的第一对应关系；

022：根据第一对应关系确定每个分句对应的第一视图调节角度；

023：根据第一预设文本的重复次数确定每个分句对应的第一视图调节距离。

处理器用于确定第一预设文本和视图角度的第一对应关系；根据第一对应关系确定每个分句对应的第一视图调节角度；根据第一预设文本的重复次数确定每个分句对应的第一视图调节距离。

第一预设文本包括“上”、“向上”、“往上”、“再上一点”、“下”、“向下”、“往下”、“再下一点”、“左”、“向左”、“往左”、“再左一点”、“右”、“向右”、“往右”和“再右一点”等。可以理解地，对于单轮的第一语音请求，分句“地图上上上”，对‘上’的泛化说法有‘向上，往上，再上一点’等说法。对于单轮的第一语音请求，分句“地图下下下”，对‘下’的泛化说法有‘向下，往下，再下一点’等说法。对于单轮的第一语音请求，分句“地图左左左”，对‘左’的泛化说法有‘向左，往左，再左一点’等说法。分句“地图右右右”，对‘右’的泛化说法有‘向右，往右，再右一点’等说法。

在一个例子中，第一对应关系可以包括第一预设文本中的“上”、“向上”、“往上”、“再上一点”等对应的视图角度为0°，第一预设文本中的“右”、“向右”和“往右”、“再右一点”等对应的视图角度为90°，第一预设文本中的“下”、“向下”、“往下”、“再下一点”等对应的视图角度为180°，“左”、“向左”、“往左”、“再左一点”等对应的视图角度为270°。在本发明的其他实施方式中，第一对应关系也可以为其他的对应关系，在此不作限制。

根据第一对应关系确定每个分句对应的第一视图调节角度。例如，第一语音请求“地图上上上，地图下下下”中的分句“地图上上上”根据上述第一对应关系得到该语音请求对应的第一视图调节角度为0°。

根据第一预设文本的重复次数确定每个分句对应的视图调节距离。可以理解地，分句中单个“上”字的视图调节距离为调节1个单位距离，分句中单个“右”字的视图调节距离为调节1个单位距离，分句中单个“下”字的视图调节距离为调节1个单位距离，分句中单个“左”字的视图调节距离为调节1个单位距离，因此，可以根据第一预设文本的重复次数确定对应的视图调节距离。例如，分句为“地图上上上”，则根据第一预设文本“上”的重复次数为3，则可以确定该语音请求对应的视图调节距离为调节3个单位距离。

请参阅图5，步骤023包括：

0231：确定每个分句中第一预设文本的重复次数；

0232：确定车辆导航地图的当前比例尺；

0233：根据当前比例尺和第一预设文本的重复次数确定每个分句对应的第一视图调节距离。

处理器用于确定每个分句中第一预设文本的重复次数；确定车辆导航地图的当前比例尺；根据当前比例尺和第一预设文本的重复次数确定每个分句对应的第一视图调节距离。

首先，确定每个分句中第一预设文本的重复次数。例如，第一语音请求为“地图上上上，地图右右右”，则可以确定分句“地图上上上”中第一预设文本“上”的重复次数为3次，分句“地图右右右”中第一预设文本“右”的重复次数也为3次。其中，第一预设文本的重复次数的范围优选为1~10。可以理解地，第一语音请求过长不便于用户发出，因此，本发明可以将第一预设文本的最大重复次数限制为包括但不限于10次，具体的第一预设文本的最大重复次数可以根据用户的实际需要自行设置。

然后，确定车辆导航地图的当前比例尺，根据当前比例尺和第一预设文本的重复次数确定每个分句对应的第一视图调节距离。可以理解地，由于若先固定了单位刻度的移动距离后，而车辆导航地图的当前比例尺很大时，用户发出第一语音请求后在地图上的移动范围是非常小的，用户几乎是感受不到视野有移动的变化。因此，本发明先确定车辆导航地图的当前比例尺的大小，然后确定在当前比例尺下单位刻度移动的距离，即，确定每个第一预设文本对应调节的单位刻度移动的距离，例如，当车辆导航地图的当前比例尺为5m时，单位移动的距离为2.5m，当车辆导航地图的当前比例尺为50m时，对应的单位移动的距离为25m，当车辆导航地图的当前比例尺为2km，对应的单位移动的距离为1.5km。之后根据当前比例尺和第一预设文本的重复次数确定每个分句对应的第一视图调节距离，用户能够直观地感受到视野有移动的变化。

请参阅图6，步骤04包括：

041：将各个分句进行编码得到第一词向量；

042：将目标视图调节角度和目标视图调节距离映射为第一预设编码；

043：拼接第一词向量和第一预设编码得到第一拼接特征向量；

044：利用预测模型处理第一拼接特征向量以对第一语音请求进行应用程序接口预测。

处理器用于将各个分句进行编码得到第一词向量；将目标视图调节角度和目标视图调节距离映射为第一预设编码；拼接第一词向量和第一预设编码得到第一拼接特征向量；利用预测模型处理第一拼接特征向量以对第一语音请求进行应用程序接口预测。

例如，将第一语音请求“地图上上上，右右右”中的2个分句“地图上上上”和“右右右”可以拼接为“[CLS]右右右[SEP]地图上上上[SEP]”的形式，即将2个分句进行编码得到第一词向量“[CLS]右右右[SEP]地图上上上[SEP]”。

将目标视图调节角度和目标视图调节距离映射到双向编码器表示（Bidirectional Encoder Representations，BERT）词典中的位置，映射为第一预设编码。

拼接第一词向量和第一预设编码得到第一拼接特征向量，可以作为预测模型输入的向量特征，给预测模型加入了更多的特征，能够使得根据预测模型预测得到的应用程序接口更加精确。

然后，利用预测模型处理第一拼接特征向量以对第一语音请求进行应用程序接口预测。即，将上述第一拼接特征向量输入至预测模型中，利用预测模型对第一拼接特征向量进行应用程序接口预测，从而预测得到应用程序接口。其中，预测模型为端到端预测应用程序接口模型。可以理解地，预测模型预测的结果中的应用程序接口直接包括意图、角度和距离信息，使得本发明的语音交互方法能够根据该预测得到的应用程序接口完成相应的语音交互。

上述实施例中，第一语音请求为对地图向上下左右移动进行方向调节，对于同时具有在地图向上下左右移动进行方向调节的第一意图及对地图的比例尺进行缩放调节的第二意图的第二语音请求，例如第二语音请求为“地图上上上，右右右，大大大”或“地图上上上，小小小”。为了实现对第二语音请求的应用程序接口预测，本发明提供了另外一种语音交互方法解决其应用程序接口的预测问题并完成语音交互。

具体地，请参阅图7，本发明还提供一种语音交互方法，包括：

S01：接收车辆转发的用户对车辆导航地图包括进行第一意图调节和第二意图调节的第二语音请求，第二语音请求至少包括与第一意图调节连续至少两个方向对应的第一分句和与第二意图对应的第二分句；

S02：确定第二语音请求中每个第一分句的第二视图调节角度和对应的第二视图调节距离；

S03：根据各个第一分句对应的第二视图调节角度和第二视图调节距离，进行矢量合成得到第二目标视图调节角度和第二目标视图调节距离；

S04：根据第二目标视图调节角度和第二目标视图调节距离，对第一分句进行应用程序接口预测得到第一应用程序接口；

S05：根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口；

S06：选择第一应用程序接口和第二应用程序接口下发至车辆完成语音交互。

本发明还提供一种服务器。服务器包括处理器和存储器，存储器上存储有计算机程序。处理器用于接收车辆转发的用户对车辆导航地图包括进行第一意图调节和第二意图调节的第二语音请求，第二语音请求至少包括与第一意图调节连续至少两个方向对应的第一分句和与第二意图对应的第二分句；确定第二语音请求中每个第一分句的第二视图调节角度和对应的第二视图调节距离；根据各个第一分句对应的第二视图调节角度和第二视图调节距离，进行矢量合成得到第二目标视图调节角度和第二目标视图调节距离；根据第二目标视图调节角度和第二目标视图调节距离，对第一分句进行应用程序接口预测得到第一应用程序接口；根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口；选择第一应用程序接口和第二应用程序接口下发至车辆完成语音交互。

首先，接收车辆转发的用户对车辆导航地图包括进行第一意图调节和第二意图调节的第二语音请求，第二语音请求至少包括与第一意图调节连续至少两个方向对应的第一分句和与第二意图对应的第二分句。

第一意图为在地图向上下左右移动进行方向调节，第二意图为对地图的比例尺进行缩放调节。

第二语音请求至少包括与第一意图调节连续至少两个方向对应的第一分句和与第二意图对应的第二分句。例如，第二语音请求为“地图上上上，右右右，大大大”，其中，第一分句为“地图上上上”和“右右右”，第二分句为“大大大”。

然后，根据前文所述的方法确定第二语音请求中每个第一分句的第二视图调节角度和对应的第二视图调节距离。例如，第一分句“地图上上上”的第二视图调节角度为0°，对应的第二视图调节距离为3个‘上’对应调节的刻度距离，例如一个‘上’对应调节1个刻度的距离，则3个‘上’对应调节3个刻度的距离。第一分句“右右右”的第二视图调节角度为90°，对应的第二视图调节距离为3个‘右’对应调节的刻度距离，例如一个‘右’对应调节1个刻度的距离，则3个‘右’对应调节3个刻度的距离。

接着，根据各个第一分句对应的第二视图调节角度和第二视图调节距离，进行矢量合成得到第二目标视图调节角度和第二目标视图调节距离，根据第二目标视图调节角度和第二目标视图调节距离，对第一分句进行应用程序接口预测得到第一应用程序接口。此处的预测得到的第一应用程序接口的具体过程与前文所述的预测过程相同，在此不再赘述。

可以理解地，由于导航视图移动的调节（上下左右）与导航视图大小的调节（比例尺调节）通常需要采用两种不同的应用程序接口，因为二者的意图不同，所以两种应用程序接口无法进行融合。

因此，本发明可以根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口。例如“地图上上上，右右右，大一点儿”时，当第二分句为‘大一点儿’时，可以根据第一分句“地图上上上，右右右”调用的应用程序接口，对第二分句‘大一点儿’进行应用程序接口预测得到第二应用程序接口，生成第二分句‘大一点儿’的第二应用程序接口。最后，选择第一应用程序接口和第二应用程序接口下发至车辆完成语音交互。

具体地，请参阅图8，步骤S04包括：

S041：将第一分句进行编码得到第二词向量；

S042：将第二视图调节角度和第二视图调节距离映射为第二预设编码；

S043：拼接第二词向量和第二预设编码得到第二拼接特征向量；

S044：利用预测模型处理第二拼接特征向量以对第一分句进行应用程序接口预测。

处理器用于将第一分句进行编码得到第二词向量；将第二视图调节角度和第二视图调节距离映射为第二预设编码；拼接第二词向量和第二预设编码得到第二拼接特征向量；利用预测模型处理第二拼接特征向量以对第一分句进行应用程序接口预测。

例如，第二语音请求为“地图上上上，右右右，小小小”，其中，第一分句“地图上上上”和第一分句“右右右”可以拼接为“[CLS]右右右[SEP]地图上上上[SEP]”的形式，即将2个第一分句进行编码得到第二词向量“[CLS]右右右[SEP]地图上上上[SEP]”。

将第一分句“地图上上上”和第一分句“右右右”对应的第二目标视图调节角度和第二目标视图调节距离映射到双向编码器表示（Bidirectional EncoderRepresentations，BERT）词典中的位置，映射为第二预设编码。

拼接第二词向量和第二预设编码得到第二拼接特征向量，可以作为预测模型输入的向量特征，给预测模型加入了更多的特征，能够使得根据预测模型预测得到的应用程序接口更加精确。

然后，利用预测模型处理第二拼接特征向量以对第一分句进行应用程序接口预测。即，将上述第二拼接特征向量输入至预测模型中，利用预测模型对第二拼接特征向量进行应用程序接口预测，从而预测得到第一应用程序接口。其中，预测模型为端到端应用程序接口预测模型。可以理解地，预测模型预测的结果中的应用程序接口直接包括意图、角度和距离信息，使得本发明的语音交互方法能够根据该预测得到的应用程序接口完成相应的语音交互。

请参阅图9，步骤S05包括：

S051：根据第一应用程序接口的参数名称和参数取值对第二分句进行改写和槽位识别生成新的第二分句；

S052：对新的第二分句进行应用程序接口预测；

S053：根据第一应用程序接口的参数名称和参数取值以及槽位识别的结果，选择预测的应用程序接口执行应用程序接口参数填充得到第二应用程序接口。

处理器用于根据第一应用程序接口的参数名称和参数取值对第二分句进行改写和槽位识别生成新的第二分句；对新的第二分句进行应用程序接口预测；根据第一应用程序接口的参数名称和参数取值以及槽位识别的结果，选择预测的应用程序接口执行应用程序接口参数填充得到第二应用程序接口。

具体地，第一应用程序接口的参数名称和参数取值是由第一分句的内容决定的。例如，第二语音请求为“地图上上上，右右右，小小小”，其中，第一分句为“地图上上上”和“右右右”。第一分句对应预测得到的第一应用程序接口的参数名称为导航地图接口，参数取值为“地图”。则可以根据第一应用程序接口的参数名称和参数取值对第二分句“小小小”进行改写和槽位识别生成新的第二分句“地图小小小”。

然后，对新的第二分句进行应用程序接口预测，根据第一应用程序接口的参数名称和参数取值以及槽位识别的结果，选择预测的应用程序接口执行应用程序接口参数填充得到第二应用程序接口。即，对新的第二分句“地图小小小”进行应用程序接口预测，调用第一分句“地图上上上”和“右右右”对应的第一应用程序接口得到第二应用程序接口。

请参阅图10，S052包括：

S0521：将新的第二分句作为文本序列进行编码得到第三词向量；

S0522：利用预设模型对第三词向量进行处理以对新的第二分句进行应用程序接口预测口。

处理器用于将新的第二分句作为文本序列进行编码得到第三词向量；利用预设模型对第三词向量进行处理以对新的第二分句进行应用程序接口预测口。

将新的第二分句作为文本序列进行编码得到第三词向量。例如，上述例子中的第二语音请求“地图上上上，右右右，小小小”得到新的第二分句“地图小小小”可以拼接为“[CLS]地图小小小[SEP]”的形式，即将该新的第二分句进行编码得到第三词向量“[CLS]地图小小小[SEP]”。

然后，利用预设模型对第三词向量进行处理以对新的第二分句进行应用程序接口预测口。其中，预设模型也可以为端到端应用程序接口预测模型。

在本发明的某些实施例中，第二语音请求还可以包括连续两个比例尺调节范围对应的第二分句，请参阅图11，此时对该类型的第二语音请求进行处理的语音交互方法包括：

S07：在根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口的步骤之前，确定各个第二分句对应的比例尺的调节方向和调节精度；

S08：根据各个第二分句对应的调节方向和调节精度，进行叠加得到目标调节方向和目标调节精度。

处理器用于在根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口的步骤之前，确定各个第二分句对应的比例尺的调节方向和调节精度；根据各个第二分句对应的调节方向和调节精度，进行叠加得到目标调节方向和目标调节精度。

在根据第一应用程序接口，对第二分句进行应用程序接口预测得到第二应用程序接口的步骤之前，确定各个第二分句对应的比例尺的调节方向和调节精度。例如，第二语音请求为“地图左左左，大大大，小小，右右右”，其中，第一分句为“地图左左左”和“右右右”，连续两个比例尺调节范围对应的第二分句为“大大大”和小小”。因此，可以先确定各个第二分句对应的比例尺的调节方向和调节精度。其中，第二分句“大大大”对应的比例尺的调节方向为放大比例尺，调节精度为3，即表示放大3倍的比例尺。第二分句“小小”对应的比例尺的调节方向为缩小比例尺，调节精度为2，即表示缩小2倍的比例尺。

需要说明的是，此时的第一应用程序接口为第二语音请求中的该第二分句的前一个或连续的多个第一分句所对应预测到的应用程序接口。例如，第二语音请求为“地图左左左，大大大，小小，右右右”时，第一应用程序接口为第一分句“地图左左左”对应预测得到的应用程序接口。第二语音请求为“地图左左左，上上上，大大大，小小，右右右”，第一应用程序接口为第一分句“地图左左左”和第一分句“上上上”对应预测得到的应用程序接口。

然后，可以根据各个第二分句对应的调节方向和调节精度，进行叠加得到目标调节方向和目标调节精度。也即是，可以将上述2个第二分句“大大大”和小小”进行叠加处理得到目标调节方向为放大比例尺，目标调节精度为1，即表示放大1倍的比例尺。

步骤S05包括：

S054：根据第一应用程序接口、目标调节方向和目标调节精度，对第二分句进行应用程序接口预测得到第二应用程序接口。

处理器用于根据第一应用程序接口、目标调节方向和目标调节精度，对第二分句进行应用程序接口预测得到第二应用程序接口。

例如，在第二语音请求为“地图左左左，大大大，小小，右右右”时，第一应用程序接口为第一分句“地图左左左”对应预测得到的应用程序接口。且将上述2个第二分句“大大大”和小小”进行叠加处理得到目标调节方向为放大比例尺，目标调节精度为放大1倍的比例尺。然后，可以根据第一应用程序接口、目标调节方向和目标调节精度，对第二分句进行应用程序接口预测得到第二应用程序接口。

也即是，本发明可以先将连续两个比例尺调节范围对应的第二分句进行叠加处理得到目标调节方向和目标调节精度，并根据第一应用程序接口对第二分句进行应用程序接口预测得到第二应用程序接口，基于历史应用程序接口快速的进行应用程序接口的调用，实现快速的实体继承，快速得到本轮的应用程序接口。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当计算机程序被一个或多个处理器执行时，实现上述任意实施示例的语音交互方法。

例如，计算机程序被处理器执行时实现以下语音交互方法的步骤：

05：选择预测到的应用程序接口下发至车辆完成语音交互。

可以理解地，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM，Random Access Memory)、以及软件分发介质等。

本发明的计算机可读存储介质可以应用上述语音交互方法经过矢量合成的计算方式获取的目标视图调节角度和目标视图调节距离对第一语音请求进行应用程序接口预测并根据该预测到的应用程序接口下发至车辆以完成语音交互，实现对车载导航地图视图全方向任意角度的随意调整。

此外，本发明的计算机可读存储介质应用上述语音交互方法还可以调用第一应用程序接口实现对具有第一意图和第二意图的两种调节意图的第二语音请求的应用程序接口预测得到第二应用程序接口，实现跨意图的实体继承，从而快速的得到第二应用程序接口，完成语音交互。

Claims

1.一种语音交互方法，其特征在于，包括：

接收车辆转发的用户对车辆导航地图进行连续至少两个方向的调节的第一语音请求，所述第一语音请求包括至少两个分句，每个分句与一个方向对应；

确定所述第一语音请求中每个所述分句的第一视图调节角度和对应的第一视图调节距离；

根据各个所述分句对应的所述第一视图调节角度和所述第一视图调节距离，进行矢量合成得到目标视图调节角度和目标视图调节距离；

将各个所述分句进行编码得到第一词向量；

将所述目标视图调节角度和目标视图调节距离映射为第一预设编码；

拼接所述第一词向量和所述第一预设编码得到第一拼接特征向量；

利用预测模型处理所述第一拼接特征向量以对所述第一语音请求进行应用程序接口预测；

选择预测到的应用程序接口下发至车辆完成语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，所述确定所述第一语音请求中每个所述分句的第一视图调节角度和对应的第一视图调节距离，包括：

确定第一预设文本和视图角度的第一对应关系；

根据所述第一对应关系确定每个所述分句对应的所述第一视图调节角度；

根据所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离。

3.根据权利要求2所述的语音交互方法，其特征在于，所述根据所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离，包括：

确定每个分句中所述第一预设文本的重复次数；

确定所述车辆导航地图的当前比例尺；

根据所述当前比例尺和所述第一预设文本的重复次数确定每个所述分句对应的所述第一视图调节距离。

4.一种语音交互方法，其特征在于，包括：

接收车辆转发的用户对车辆导航地图包括进行第一意图调节和第二意图调节的第二语音请求，所述第二语音请求至少包括与所述第一意图调节连续至少两个方向对应的第一分句和与所述第二意图对应的第二分句；

确定所述第二语音请求中每个所述第一分句的第二视图调节角度和对应的第二视图调节距离；

根据各个所述第一分句对应的所述第二视图调节角度和所述第二视图调节距离，进行矢量合成得到第二目标视图调节角度和第二目标视图调节距离；

将所述第一分句进行编码得到第二词向量；

将所述第二目标视图调节角度和第二目标视图调节距离映射为第二预设编码；

拼接所述第二词向量和所述第二预设编码得到第二拼接特征向量；

利用预测模型处理所述第二拼接特征向量以对所述第一分句进行应用程序接口预测得到第一应用程序接口；

根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口；

选择所述第一应用程序接口和所述第二应用程序接口下发至车辆完成语音交互。

5.根据权利要求4所述的语音交互方法，其特征在于，所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口，包括：

根据所述第一应用程序接口的参数名称和参数取值对所述第二分句进行改写和槽位识别生成新的第二分句；

对所述新的第二分句进行应用程序接口预测；

根据所述第一应用程序接口的参数名称和参数取值以及所述槽位识别的结果，选择预测的应用程序接口执行应用程序接口参数填充得到所述第二应用程序接口。

6.根据权利要求5所述的语音交互方法，其特征在于，所述对所述新的第二分句进行应用程序接口预测，包括：

将所述新的第二分句作为文本序列进行编码得到第三词向量；

利用预设模型对所述第三词向量进行处理以对所述新的第二分句进行应用程序接口预测口。

7.根据权利要求4所述的语音交互方法，其特征在于，所述第二语音请求包括连续两个比例尺调节范围对应的所述第二分句，所述语音交互方法包括：

在所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口的步骤之前，确定各个所述第二分句对应的比例尺的调节方向和调节精度；

根据各个所述第二分句对应的所述调节方向和所述调节精度，进行叠加得到目标调节方向和目标调节精度。

8.根据权利要求7所述的语音交互方法，其特征在于，所述根据所述第一应用程序接口，对所述第二分句进行应用程序接口预测得到第二应用程序接口，包括：

根据所述第一应用程序接口、所述目标调节方向和所述目标调节精度，对所述第二分句进行应用程序接口预测得到所述第二应用程序接口。

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-8任一项所述的语音交互方法。

10.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-8任一项所述的语音交互方法。