CN118038868A

CN118038868A - 语音交互方法、服务器及计算机可读存储介质

Info

Publication number: CN118038868A
Application number: CN202410221129.9A
Authority: CN
Inventors: 丁鹏傑; 赵群; 宁洪珂; 樊骏锋; 朱麒宇
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-05-14

Abstract

本申请公开一种语音交互方法、服务器及计算机可读存储介质，所述方法包括：接收到车辆转发的当前语音请求，根据当前语音请求对知识数据库进行检索，得到第一检索结果，基于大语言模型，根据提示信息模板和第一检索结果对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，输出执行结果下发至车辆以完成语音交互。如此，本申请在模型推理过程中以当前语音请求检索知识数据库，使得模型可基于检索结果和提示信息模板，完成当前语音请求的推理，推理结果的时效性可与知识数据库中的信息相关，避免模型的训练数据过期而导致模型给出过期的答案的情况，保障模型的推理精度。

Description

语音交互方法、服务器及计算机可读存储介质

技术领域

本申请涉及语音交互技术领域，特别涉及一种语音交互方法、服务器及计算机可读存储介质。

背景技术

相关技术中，车载语音对话***通常利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签，并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示，根据此状态使用对话策略模块选择合适的对话动作，最后通过自然语言生成模块将对话动作转成自然语言回复。然而，开发人员在训练模型期间所使用的训练数据可能为经典或当时流行的语料数据，但在模型落地后这些语料数据可能已“过期”，导致模型可能因“过期”信息给出无效的答案。

发明内容

本申请提供了一种语音交互方法、服务器及计算机可读存储介质。

本申请实施方式提供一种语音交互方法，包括：

接收车辆转发的当前语音请求；

根据所述当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果；

基于大语言模型，根据预先配置的提示信息模板和所述第一检索结果，对所述当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，所述大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果；

输出所述执行结果下发至车辆完成语音交互。

本申请实施方式提供的语音交互方法中，服务器可接收到车辆转发的当前语音请求，并根据当前语音请求对预先配置的知识数据库进行检索，以得到与当前语音请求存在相关性的第一检索结果，再基于预先训练完成且能够根据语音请求生成应用程序接口参数填充的执行结果的大语言模型，根据预先配置的提示信息模板和第一检索结果对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，及输出执行结果下发至车辆，由此完成语音交互。

如此，在本申请实施方式中，服务器可在模型推理过程中根据当前语音请求检索知识数据库以得到第一检索结果，以使得模型可基于第一检索结果和提示信息模板的提示，完成当前语音请求的推理工作，进而模型推理结果的时效性可与知识数据库中的信息相关，从而能在一定程度上避免模型的训练数据过期而导致模型给出无效或过期的答案的情况出现，保障了模型的推理精度。

在本申请某些实施方式中，所述知识数据库包括索引和所述索引对应的数据块，所述根据所述当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果，包括：

根据所述当前语音请求，对所述知识数据库中的所述索引进行检索，得到目标索引；

根据所述知识数据库中与目标索引相对应的数据块，确定所述第一检索结果。

的服务器可将目标索引所指代或表征的数据块，作为当前语音请求的检索结果。

如此，在本申请实施方式中，服务器可利用当前语音请求检索知识数据库中数据块对应的索引，以避免直接通过当前语音请求检索数据块的情况出现，使得检索知识数据库所需利用的计算资源得以降低，检索操作的执行效率得以保障。

在本申请某些实施方式中，所述方法还包括：

对所述数据块进行嵌入化编码处理，得到与所述数据块相对应的所述索引。

如此，在本申请实施方式中，数据块的索引可通过对数据块进行嵌入化编码以得到，使得数据块及数据块对应的索引间的指向关系清晰且明确。

在本申请某些实施方式中，所述根据所述当前语音请求，对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

对所述当前语音请求进行所述嵌入化编码处理，得到编码结果；

根据所述编码结果对所述知识数据库中的所述索引进行检索，得到目标索引。

如此，在本申请实施方式中，服务器可通过对当前语音请求进行嵌入化编码处理，以得到能与索引能处于同一空间或同一纬度的编码结果，使得目标索引能可靠地通过检索编码结果以得到。

在本申请某些实施方式中，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述根据所述编码结果对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

根据所述编码结果与每个所述索引的相似度，从多个所述索引中确定所述目标索引。

如此，在本申请实施方式中，服务器可在确定出当前语音请求的编码结果的情况下，基于该编码结果与各个数据块的索引的相似度，从各个数据块的索引中确定出目标索引。

在本申请某些实施方式中，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述方法还包括：

对预先确定的知识数据进行拆分处理，得到多个所述数据块。

如此，在本申请实施方式中，服务器可在获取到知识数据的情况下，对完整的知识数据进行拆分处理以得到多个数据块，从而避免将完整的知识数据输入至大语言模型以提示大语言模型进行推理工作的情况出现。

在本申请某些实施方式中，所述大语言模型的训练步骤包括：

获取语音请求样本和所述语音请求样本对应的样本标签；

根据所述语音请求样本，对所述知识数据库进行检索，得到第二检索结果；

根据所述语音请求样本、所述样本标签、所述第二检索结果及预先配置的提示信息模板，训练参考模型以得到所述大语言模型。

如此，在本申请实施方式中，服务器可基于语音请求样本、语音请求样本对应的样本标签、语音请求样本对应的第二检索结果以及预先配置的提示信息模板，对参考模型进行训练，以得到能对需求的下游任务进行可靠处理的大语言模型。

在本申请某些实施方式中，所述方法还包括：

将预先配置的车辆领域的知识信息注入基础模型；

对基础模型进行训练以得到所述参考模型。

如此，将车辆领域的知识注入基础模型，并对基础模型进行训练，使得模型对于车辆领域的知识具备一定的理解，进而能提高模型对于车辆领域的下游任务的处理能力。

本申请实施方式提供一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的语音交互方法。

本申请实施方式提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述的语音交互方法。

本申请实施方式提供的服务器和计算机存储介质，可在模型推理过程中根据当前语音请求检索知识数据库以得到第一检索结果，以使得模型可基于第一检索结果和提示信息模板的提示，完成当前语音请求的推理工作，进而模型推理结果的时效性可与知识数据库中的信息相关，从而能在一定程度上避免模型的训练数据过期而导致模型给出无效或过期的答案的情况出现，保障了模型的推理精度。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1为相关技术中传统对话***的架构示意图；

图2为端到端架构对话***的架构示意图；

图3为本申请某些实施方式中语音交互方法的流程示意图；

图4为本申请某些实施方式中基于大语言模型的端到端架构对话***的架构示意图；

图5为本申请某些实施方式中语音交互方法的流程示意图；

图6为本申请某些实施方式中语音交互方法的流程示意图；

图7为本申请某些实施方式中语音交互方法的流程示意图；

图8为本申请某些实施方式中语音交互方法的流程示意图；

图9为本申请某些实施方式中语音交互方法的流程示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

请参阅图1，传统的车载语音***架构基于模块化策略，在组件之间采用分工实现整个对话流程，通常包括有自然语言理解模块、对话状态跟踪模块、对话策略模块和自然语言生成模块等，其中对话状态跟踪模块和对话策略模块合称为对话管理模块。

从对话的整体处理链路来说，传统的车载语音***架构获取用户输入的语音请求后，需要先利用自然语音理解模块将用户的语音请求解析为机器可以理解的语义标签，即进行领域分类、意图识别和槽位识别。然后通过对话状态跟踪模块维护对话状态，根据此状态使用对话策略模块选择合适的对话动作，也即是在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口(Application ProgrammingInterface，API)。最后，通过自然语言生成模块将对话动作转换成自然语音回复，也即是返回和用户交互的***输出。

在传统的车载语音***架构中，各个模块中融合了不同垂域的模型和处理逻辑，需要训练各自的模型并实现各自的处理逻辑，这需要大量的开发人员投入和足够的领域标注数据。同时，和真实用户的交互成本昂贵，数据回流周期慢，不足以支持模型的快速迭代，因此限制了对话***规模的扩充。此外规则***的维护也需要较大的人力和时间成本，限制了对话***的扩展性。此外，由于车载场景下的语音交互对于时延有很高的要求，对话***经过四个模块多个模型去执行用户指令的时效性也存在较大挑战。

请参阅图2，基于上述传统车载语音***架构的缺陷和不足，相关技术中提出了基于端到端的语音***架构，其包含三个核心的算法模块：NER(Named Entity Recognition，命名实体识别)模块、AP(Action Prediction，行动预测)模块以及AF(Argument Filling，参数填充)模块。其中，NER模块用于识别出用户输入的语音请求中的实体。AP模块用于预测语音请求所对应的实现用户当前目标的应用程序接口。AF模块用于从识别到的语音请求中的实体选择上一步中得到的应用程序接口执行所对应的参数。

也即是，NER模块用于获取需要在应用程序接口中调用的实体，AP模块决定了后续实现用户语音输入所调用的应用程序接口是否正确，AF模块则进行选择哪些实体用来作为应用程序接口的参数进行执行。

可以理解地，基于端到端的车载语音***架构融合了传统车载语音***架构的部分模块，减少了各个模块相对独立的数据需求和人工参与的规则制定。由于精简了架构，并且不区分垂域的特点，降低了后续的模块维护成本并节省了机器和人力开销。同时，车载场景下车辆控制的需求具有很强的时效性，而车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异，导致车载环境下的语音交互对于时延有很高的要求。而端到端架构精简了中间模块，可以有效降低车载***的延时。

从对话的整体处理链路来说，基于端到端的车载语音***架构在获取到用户的语音请求后，会结合对话历史直接生成***指令或回复，即通过NER模块获取槽位信息，AP模块获取需执行的API，AF模块从识别出的槽位中选择API执行所对应的参数。

然而，前期的开发过程可能是基于当时流行的语料库或是较为经典的语料库所进行，而后期的实际应用过程中，因上述的语料库已过期或落伍，导致***或模块给出的答案可能出错或无效，进而生成不准确、过于笼统的、相关性弱的回答。

举例而言，在前期的开发过程中，“AAA”为音乐词典中的一个词语，而在后期的实际应用期间，可能因某电视节目的播出使得“AAA”还指代某电视剧的名称。进而，当用户欲观看电视剧而说出“播放‘AAA’”的语音指令时，***/模块可能是播放名称为“AAA”的音乐而非播放名称为“AAA”的电视剧，也即是回答出错。

以及，可以理解的是，若为***/模块能适应当下流行的词语或句子，而对***/模块进行重新构建或重新训练，则存在重建成本较高，且重建次数较多的情况。

基于上述可能遇到的问题，请参阅图3，本申请实施方式提供了一种语音交互方法，包括：

01：接收车辆转发的当前语音请求；

02：根据当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果；

03：基于大语言模型，根据预先配置的提示信息模板和第一检索结果，对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果；

04：输出执行结果下发至车辆完成语音交互。

本申请实施方式提供了一种语音交互装置。本申请实施方式的车辆的位置确定方法可以由本申请实施方式的语音交互装置实现。具体地，语音交互装置包括接收模块、检索模块、识别模块及交互模块。其中，接收模块用于接收车辆转发的当前语音请求。检索模块用于根据当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果。识别模块用于基于大语言模型，根据预先配置的提示信息模板和第一检索结果，对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果。交互模块用于输出执行结果下发至车辆完成语音交互。

本申请实施方式还提供了一种车辆，车辆包括存储器和处理器。本申请实施方式的车辆的位置确定方法可以由本申请实施方式的车辆实现。具体地，存储器中存储有计算机程序，处理器用于接收车辆转发的当前语音请求，及用于根据当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果，及用于基于大语言模型，根据预先配置的提示信息模板和第一检索结果，对当前语音请求进行槽位识别和应用程序接口预测以及应用程序接口参数填充以得到应用程序接口参数填充的执行结果，大语言模型预先训练完成，且能够根据语音请求生成应用程序接口参数填充的执行结果，及用于输出执行结果下发至车辆完成语音交互。

具体地，随着大语言模型(Large Language Model，LLM)的快速发展，相关技术取得较快进展，并在相关领域得以运用。随着深度学习和大数据技术的不断进步，使得大语言模型的规模和复杂性得以增加，从而提升了大语言模型的性能和表现能力。大语言模型可具备数千亿甚至数万亿个参数，使得其能够更好地理解和生成人类语言，涵盖更广泛的语义和语境。也因此，大语言模型在自然语言处理任务如自然语言理解，自然语言生成，上下文理解，文本摘要，文本翻译，对话***等多种任务上都达到了可媲美人类能力的程度。

由此，本申请实施方式提供一种基于大语言模型的车载语音识别方案，具体可参阅图4，图4为本申请某些实施方式中基于大语言模型的端到端对话***的架构示意图。也即，本申请实施方式基于LLM模型在自然语言处理任务方面较为出色的能力，在此基础上根据所要完成的任务进行相关训练。本申请实施方式中将端到端语音***架构中的三个模块(NER模块、AP模块和AF模块)取消，也即是不再需要独立的模块来实现。直接利用LLM模型的语言理解、生成和上下文理解能力，生成当前语音请求相对应的API标签和AF标签。减轻了开发人员的负担，节省了时间和成本。

能理解的是，由于大语言模型可具备数千亿甚至数万亿个参数，故大语言模型的训练成本较大。进而，在用于训练大语言模型的训练数据过期的情况下，若重新对大语言模型进行训练，一是重新训练的成本较高，二是即使对大语言模型重新训练以使大语言模型能对当下流行的词语或句子进行处理，但当下流行的词语或句子将在未来过期，导致未来还需对大语言模型新一轮的更新训练。

基于此，在本申请实施方式中，用户欲使车辆执行特定的动作如播放音乐，因而于当前时刻说出特定的语句，使得车辆获取到用户触发的当前语音请求，且车辆将当前语音请求转发至服务器后，服务器可在接收到车辆转发的当前语音请求的情况下，基于当前语音请求检索预先配置的知识数据库，以得到与当前语音请求具备一定相关性的第一检索结果。接着，服务器可将得到的第一检索结果、预先配置的提示(prompt或instruction)信息以及当前语音请求均输入至大语言模型中，以使大语言模型对当前语音请求进行槽位识别和应用程序接口预测，及执行应用程序接口参数填充以得到应用程序接口参数填充的执行结果。最后，输出大语言模型的执行结果以下发至车辆，使得车辆执行上述特定的动作以完成与用户的交互。

其中，可以理解的是，本申请实施方式中的当前语音请求能够表征用户欲使车辆执行的动作。举例而言，在一个示例中，当前语音请求为“播放作者A(人名)的B(歌曲名)”。

还可以理解的是，在本申请实施方式中，知识数据库可用于维护和/或存储当下流行的字、词语及句子等语料信息，或者说，知识数据库可理解为用于维护和/或存储当下流行的字、词语及句子等语料信息的词典。例如，在一个示例中，知识数据库包括的内容有：{"token":"X","label":"SONG"}、{"token":"X","label":"ALBUM"}以及{"token":"A","label":"SINGER"}。

也因此，在本申请实施方式中，在基于当前语音请求对知识数据库进行检索所得到的第一检索结果中，亦可包括当下流行的字、词语及句子等语料信息。在一个示例中，基于上述“播放A老师的X”，检索知识数据库所得到的第一检索结果可包括上述{"token":"X","label":"SONG"}、{"token":"X","label":"ALBUM"}以及{"token":"A","label":"SINGER"}中的一个或多个的组合。

进一步地，由于第一检索结果亦可输入至大语言模型，且第一检索结果可用于当前语音请求的推理，故为保障第一检索结果输入至大语言模型后大语言模型能合理地理解第一检索结果，及能可靠地完成当前语音请求的推理工作，本申请实施方式的服务器还可调用预先配置的提示信息模板，并将提示信息模板输入至大语言模型，以使大语言模型能够根据提示信息模板确定推理任务并完成推理工作。

还需说明的是，提示模板信息用于辅助大语言模型进行当前语音请求的推理工作，如可辅助大语言模型理解当前语音请求所对应的推理任务，和/或辅助大语言模型理解第一检索结果的作用。

能理解的是，提示模板信息为可根据实际情况设置的内容。举例而言，在本申请某些实施方式中，提示信息模板可包括：“如下是发生在车内的对话，参与者有乘客，司机，智能语音助手，Agent。乘客与司机会在车里互相聊天，也会向智能语音助手发送指令；智能语音助手会倾听乘客和司机的所有对话，当判断是向自己发送指令的时候，需要理解指令内容后进行任务拆解，给出一系列可以调用的API和对应的参数；Agent会接收语音助手给出的API和对应的参数，执行它们然后给出执行结果。每个API的名字都是由多个英语单词及其缩写组合而成，以此来表达它的含义。接下来，我会给出一个***接收到的指令，同时，还会给出基于这个指令所检索到的外部资源库中的相关外部信息，请使用这部分信息作为参考，给出最终智能语音助手的回复，回复包含两部分，ACTIONS表示所需要调用的API，ARGUMENTS表示这个API所对应的参数。例如，用户指令是\"我要去餐厅\"，请以如下的JSON格式输出结果：{\"ACTIONS\":\"NavigationSearchPoi\",\"ARGUMENTS\":[('POI_NAME','餐厅')]}。表示所需要调用的API为\"NavigationSearchPoi\"，对应的一个参数的类型和值为\"POI_NAME\"和\"餐厅"”。

可选的，在本申请某些实施方式中，服务器可将提示信息模板、当前语音请求以及第一检索结果合并，以将合并得到的信息输入至大语言模型。

示范性的，在一个示例中，合并得到的信息可包括：“如下是发生在车内的对话，参与者有乘客，司机，智能语音助手，Agent。乘客与司机会在车里互相聊天，也会向智能语音助手发送指令；智能语音助手会倾听乘客和司机的所有对话，当判断是向自己发送指令的时候，需要理解指令内容后进行任务拆解，给出一系列可以调用的API和对应的参数；Agent会接收语音助手给出的API和对应的参数，执行它们然后给出执行结果。每个API的名字都是由多个英语单词及其缩写组合而成，以此来表达它的含义。接下来，我会给出一个***接收到的指令，同时，还会给出基于这个指令所检索到的外部资源库中的相关外部信息，请使用这部分信息作为参考，给出最终智能语音助手的回复，回复包含两部分，ACTIONS表示所需要调用的API，ARGUMENTS表示这个API所对应的参数。例如，用户指令是\"我要去餐厅\"，请以如下的JSON格式输出结果：{\"ACTIONS\":\"NavigationSearchPoi\",\"ARGUMENTS\":[('POI_NAME','餐厅')]}。表示所需要调用的API为\"NavigationSearchPoi\"，对应的一个参数的类型和值为\"POI_NAME\"和\"餐厅"。用户指令为：播放A老师的X。外部信息为：[{"token":"X","label":"SONG"},{"token":"X","label":"ALBUM"},{"token":"A老师","label":"SINGER"}]”。

其中，上述合并信息中的“用户指令”可理解为当前语音请求。“外部信息”可以理解为第一检索结果。

以及，还需理解的是，本申请实施方式可将当前语音请求、第一检索结果及提示信息模板输入至大语言模型，由此进行槽位识别、API(Application ProgrammingInterface，应用程序接口)预测及将相应槽位识别得到的实体填入应用程序接口的相应参数中，并将参数填充的结果进行输出。

示范性的，在一个示例中，当前语音请求为“第二排右侧侧滑门暂停移动”，基于大语言模型所得到的API预测结果可以为'ControlSet'，AF结果可以为[('DEVICE','侧滑门'),('SET_TYPE','暂停'),('POSITION','第二排右侧')]。

进一步地，在本申请某些实施方式中，参数填充的执行结果可以JSON(JavaScriptObject Notation，JS对象简谱)格式输出，例如：输出形式为：{'ACTIONS':'ControlSet','ARGUMENTS':[('DEVICE','侧滑门'),('SET_TYPE','暂停'),('POSITION','第二排右侧')]}。

综上，在本申请实施方式中，服务器可在模型推理过程中根据当前语音请求检索知识数据库以得到第一检索结果，以使得模型可基于第一检索结果和提示信息模板的提示，完成当前语音请求的推理工作，进而模型推理结果的时效性可与知识数据库中的信息相关，从而能在一定程度上避免模型的训练数据过期而导致模型给出无效或过期的答案的情况出现，保障了模型的推理精度。

以及，在知识数据库维护有当下流行的语料信息或自然语言信息的情况下，本申请实施方式可基于知识数据库，使得大语言模型可基于当前语音请求对应的第一检索结果，生成更准确，更有时效性，更有可信度的回答，也因此，能同时有效提升车载语音识别方案的可用性。

不仅如此，相对于图1或图2所示的架构而言，本申请实施方式精简了语音交互***的架构，并利用预训练的大语言模型，可直接完成包括槽位识别、应用程序接口预测以及应用程序接口参数填充在内的任务，从而直接完成对语音请求的处理进行完成语音交互。本申请实施方式精简语音交互***的架构，并利用预训练的大语言模型，减少了对于不同垂域的相关模型的调用，有效降低延时，提升对于用户语音请求的响应速度，精简架构也有利于后续的维护，节省成本。

请参阅图5，在本申请某些实施方式中，知识数据库包括索引和索引对应的数据块，进而步骤02包括：

020：根据当前语音请求，对知识数据库中的索引进行检索，得到目标索引；

021：根据知识数据库中与目标索引相对应的数据块，确定第一检索结果。

本申请实施方式的检索模块还用于根据当前语音请求，对知识数据库中的索引进行检索，得到目标索引，及用于根据知识数据库中与目标索引相对应的数据块，确定第一检索结果。

本申请实施方式的处理器还用于根据当前语音请求，对知识数据库中的索引进行检索，得到目标索引，及用于根据知识数据库中与目标索引相对应的数据块，确定第一检索结果。

具体而言，为提高检索效率，本申请实施方式的服务器的知识数据库中，存储有数据块及数据库对应的索引，进而，在服务器基于当前语音请求检索知识数据库时，可避免直接通过当前语音请求检索数据量较大的数据块，而是通过当前语音请求检索数据量较小的索引，提高检索效率并降低检索所需的资源和负荷。

其中，本申请实施方式中的数据块可以理解为上述的{"token":"X","label":"SONG"}、{"token":"X","label":"ALBUM"}以及{"token":"A","label":"SINGER"}。

以及，本申请实施方式中数据库的索引可以理解为能在一定程度上表征或指代数据块的信息。在本申请某些实施方式中，对数据块进行数据压缩而得到的信息即可理解为数据块对应的索引。而在另一些实施方式中，对数据块进行特征抽取而得到的信息即可理解为数据块对应的索引，如数据块的哈希码。

能理解的是，相比于直接通过当前语音请求检索数据量较大的数据块而言，服务器通过当前语音请求检索数据块对应的索引信息时，所需利用的计算资源更少，检索操作的执行效率更高。

还能理解的是，在基于当前语音请求检索知识数据库中的索引，进而得到与当前语音请求相关或匹配的索引的情况下，或者说，在得到目标索引的情况下，本申请实施方式的服务器可将目标索引所指代或表征的数据块，作为当前语音请求的检索结果。

在本申请某些实施方式中，语音交互方法还包括：

对数据块进行嵌入化编码处理，得到与数据块相对应的索引。

本申请实施方式的语音交互装置还包括编码模块。编码模块用于对数据块进行嵌入化编码处理，得到与数据块相对应的索引。

本申请实施方式的处理器还用于对数据块进行嵌入化编码处理，得到与数据块相对应的索引。

具体而言，为使数据块及数据块对应的索引之间有明确的指向关系，同时为降低存储数据块及索引的存储空间，本申请实施方式的服务器还可对知识数据库中的各个数据块进行嵌入(Embedding)化编码处理，或者说，将各个数据块编码分别为相应的嵌入向量(Embedding Vector)，从而得到各个数据块分别对应的索引。

请参阅图6，在本申请某些实施方式中，步骤020包括：

0200：对当前语音请求进行嵌入化编码处理，得到编码结果；

0201：根据编码结果对知识数据库中的索引进行检索，得到目标索引。

本申请实施方式的检索模块还用于对当前语音请求进行嵌入化编码处理，得到编码结果，还用于根据编码结果对知识数据库中的索引进行检索，得到目标索引。

本申请实施方式的处理器还用于对当前语音请求进行嵌入化编码处理，得到编码结果，还用于根据编码结果对知识数据库中的索引进行检索，得到目标索引。

具体而言，为保障检索操作的可靠执行，本申请实施方式在检索知识数据库之前，还可对当前语音请求亦进行嵌入化编码处理，以使当前语音请求和数据块能处于同一空间或同一纬度，由此保障检索操作的可靠执行。

具体地，本申请实施方式的服务器对各个数据块进行嵌入化编码处理以得到各个数据块分别对应的索引，并基于知识数据库维护各个数据块及其对应索引的情况下，服务器可在获取到车辆转发的当前语音请求后，对当前语音请求嵌入化编码处理，以得到当前语音请求的编码结果，进而，利用当前语音请求的编码结果，检索知识数据库中各个数据块对应的索引，从而得到与该编码结果相关或相似的目标索引。

可选的，在本申请某些实施方式中，服务器对各个数据块进行嵌入化编码处理以得到各个数据块的嵌入向量，也即是即索引；以及，服务器在得到当前语音请求的情况下，将对当前语音请求进行嵌入化编码处理以得到相应的嵌入向量，也即是编码结果。

进一步地，由于编码结果和索引均是基于嵌入化编码处理所得到的嵌入向量，故编码结果和索引可同处于一个向量空间下，进而服务器可根据该向量空间下编码结果和索引的距离，确定与该编码结果距离最近的一个或多个索引，从而得到目标索引。

在本申请某些实施方式中，知识数据库包括多个索引及每个索引对应的数据块，进而步骤0201包括：

根据编码结果与每个索引的相似度，从多个索引中确定目标索引。

本申请实施方式的检索模块还用于根据编码结果与每个索引的相似度，从多个索引中确定目标索引。

本申请实施方式的处理器还用于根据编码结果与每个索引的相似度，从多个索引中确定目标索引。

具体而言，为保障检索结果的可靠性，本申请实施方式可基于相似性搜索(Similarity Search)的方式检索知识数据库。

具体地，为更清楚地说明本申请实施方式，请参与图7，图7为本申请某些实施方式中语音交互方法的流程示意图。如图7所示，本申请实施方式中的服务器可在接收到车辆转发的当前语音请求后，基于相似性搜索的方式搜索知识数据库中的索引，或者说，对当前语音请求进行嵌入化编码以得到编码结果后，基于编码结果检索知识数据库中的索引向量仓库，以得到与编码结果相似的一个或多个索引，即目标索引。

进一步地，如图7所示，服务器可将当前语音请求、目标索引所对应的数据块(即图7中“索引的数据块”)以及提示信息模板(未在图7中示出)一并输入至大语言模型，以使大语言模型基于目标索引所对应的数据块和提示信息模板，完成当前语音请求的推理工作，及输出相应的答案。

可以理解的是，本申请实施方式的服务器是相似性搜索的方式，搜索知识数据库中与编码结果相似的目标索引。也因此，在本申请某些实施方式中，服务器可确定编码结果与各个索引的相似度，以将相似度最高的索引确定为目标索引。

可选的，在本申请另一些实施方式中，服务器可根据编码结果与各个索引的相似度，将全部的索引中相似度最高的前n个索引确定为目标索引。能理解的是，n的取值为可根据情况设置的内容。

举例而言，在本申请某些实施方式中，因大语言模型所接收到的输入信息包括当前语音请求、提示信息模板及目标索引对应的数据块，且提示信息模板所包含的字符或语义单元(即token)较多，因而为避免输入信息过长而影响大语言模型的推理性能，故上述n的取值为3。

示范性的，在本申请某些实施方式中，提示信息模板还包括有多个API的说明信息，进而，由提示信息模板、当前语音请求及目标索引对应的数据块所构成的输入信息可包括：“如下是发生在车内的对话，参与者有乘客，司机，智能语音助手，Agent。乘客与司机会在车里互相聊天，也会向智能语音助手发送指令；智能语音助手会倾听乘客和司机的所有对话，当判断是向自己发送指令的时候，需要理解指令内容后进行任务拆解，给出一系列可以调用的API和对应的参数；Agent会接收语音助手给出的API和对应的参数，执行它们然后给出执行结果。每个API的名字都是由多个英语单词及其缩写组合而成，以此来表达它的含义。接下来，我会先给你几个API及其含义，请阅读API定义，理解它们构成的含义，同时理解API定义和API名字的联系。<API定义>(该部分已省略)最后，我会给出一个***接收到的指令，同时，还会给出基于这个指令所检索到的外部资源库中的相关外部信息，请使用这部分信息作为参考，给出最终智能语音助手的回复，回复包含两部分，ACTIONS表示所需要调用的API，ARGUMENTS表示这个API所对应的参数。例如，用户指令是\"我要去中关村\"，请以如下的JSON格式输出结果：{\"ACTIONS\":\"NavigationSearchPoi\",\"ARGUMENTS\":[('POI_NAME','中关村')]}。表示所需要调用的API为\"NavigationSearchPoi\"，对应的一个参数的类型和值为\"POI_NAME\"和\"中关村"。用户指令为：播放Z老师的歌曲Q。外部信息为：[{"token":"歌曲Q","label":"SONG"},{"token":"歌曲Q","label":"ALBUM"},{"token":"Z老师","label":"SINGER"}]。”

在本申请某些实施方式中，知识数据库包括多个索引及每个索引对应的数据块，语音交互方法还包括：

对预先确定的知识数据进行拆分处理，得到多个数据块。

本申请实施方式的语音交互装置还包括拆分模块。拆分模块用于对预先确定的知识数据进行拆分处理，得到多个数据块。

本申请实施方式的处理器还用于对预先确定的知识数据进行拆分处理，得到多个数据块。

具体而言，本申请实施方式的服务器可在收集到当下流行的语料信息如音乐名称、歌手名称、专辑名称、地名等时效性较强的信息时，或者说，在收集到时效性较强的知识数据时，可对完整的知识数据进行拆分处理，以将完整的知识数据拆分多个部分，也即是拆分为多个数据块。

可以理解的是，将完整的知识数据输入至大语言模型以提示大语言模型进行当前语音请求的推理工作时，可能会因完整的知识数据的语义单元过多，从而影响推理工作的执行率。并且，完整的知识数据中可能仅部分与当前语音请求相关，因而若将完整的知识数据输入至大语言模型，则可能为大语言模型的推理工作引入噪声。

由此，本申请实施方式的服务器可基于对知识数据的拆分处理，以在大语言模型需进行当前语音请求的推理工作时，将数据量较少且与当前语音请求相关数据块输入至大语言模型，使得大语言模型能基于数据块的提示进行当前语音请求的推理工作，并避免大语言模型基于完整的知识数据进行推理工作时可能因完整知识数据中的噪声，而输出错误结果的情况出现。

此外，还可以理解的是，本申请实施方式中每个数据块的数据量大小为可根据实际情况设置的内容。

举例而言，在本申请某些实施方式中，因提示信息模板中包含有多个API的说明信息，故为避免由“提示信息模板、当前语音请求及目标索引对应的数据块”所构成的输入信息过长，进而影响大语言模型进行推理工作的情况出现，故每个数据块可由20至30个语义单元(即token)构成。

请参阅图8，在本申请某些实施方式中，大语言模型的训练步骤包括：

05：获取语音请求样本和语音请求样本对应的样本标签；

06：根据语音请求样本，对知识数据库进行检索，得到第二检索结果；

07：根据语音请求样本、样本标签、第二检索结果及预先配置的提示信息模板，训练参考模型以得到大语言模型。

本申请实施方式的语音交互装置还包括获取模块、数据库检索模块及训练模块。其中，获取模块用于获取语音请求样本和语音请求样本对应的样本标签。数据库检索模块用于根据语音请求样本，对知识数据库进行检索，得到第二检索结果。训练模块用于根据语音请求样本、样本标签、第二检索结果及预先配置的提示信息模板，训练参考模型以得到大语言模型。

本申请实施方式的处理器还用于获取语音请求样本和语音请求样本对应的样本标签，及用于根据语音请求样本，对知识数据库进行检索，得到第二检索结果，及用于根据语音请求样本、样本标签、第二检索结果及预先配置的提示信息模板，训练参考模型以得到大语言模型。

可以理解的是，本申请实施方式的大语言模型可理解为用于执行和处理特定下游任务而专门训练的自然语言处理模型，或者说，本申请实施方式的大语言模型相比于其他通用模型或基础模型而言，在特定的下游任务上的处理效果更佳，如能更准确地识别语音请求对应的槽位和预测语音请求对应的API，以及更能准确地完成AF工作。

以及，需说明的是，本申请实施方式中的参考模型可以是在基础模型(或称为基座模型)进行相应的训练而得到。还需说明的是，相比于基础模型而言，参考模型在特定垂域具备更多的知识。但是，在本申请实施方式所要求的下游任务处理能力上，参考模块仍存在欠缺。由此，需对参考模型进行调整和更新，以使更新后的参考模块能适用于上述下游任务，进而得到本申请实施方式所需的大语言模型。

还需说明的是，本申请实施方式中的语音请求样本及与语音请求样本相对应的样本标签可以理解为参考模型的训练数据。能理解的是，语音请求样本及其对应的样本标签的获取方式为可根据实际情况设置的内容，如在某些实施方式中，语音请求样本及其对应的样本标签来源于历史收集的用户日志，而在另一些实施方式中，语音请求样本及其对应的样本标签为人工设置或构建的数据。

以及，还能理解的是，语音请求样本及其对应的样本标签的具体形式为可根据实际情况设置的内容。例如，在一个示例中，语音请求样本可以为“第二排右侧侧滑门暂停移动”，该语音请求样本对应的样本标签可包括API标签和AF标签，其中，API标签可以为'ControlSet'，AF标签可以为[('DEVICE','侧滑门'),('SET_TYPE','暂停'),('POSITION','第二排右侧')]。

进一步地，为使大语言模型在前期训练和后期应用中，均能准确地和可靠地完成语音请求(指当前语音请求和语音请求样本)的推理工作，因而本申请实施方式在将语音请求样本输入至参考模型的同时，还将利用语音请求样本搜索知识数据库以得到相应的第二检索结果，并将第二检索结果与语音请求样本一并输入至参考模型，从而使参考模型在进行语音请求样本的推理工作时，能基于第二检索结果的提示，输出恰当的答案。

以及，为保障大语言模型在前期训练和后期应用中，能准确地理解语音请求的处理方式且能可靠地完成语音请求的推理工作，因而本申请实施方式的服务器还可在将语音请求样本和第二检索结果输入至参考模型的同时，还可将预先配置的提示信息模板输入至参考模型，以使参考模型能基于提示信息模板的提示，理解并完成语音请求样本的推理工作。

进一步地，为使参考模型能适用于本申请实施方式所需处理的下游人员，因而本申请实施方式的服务器可采用有监督调整(Supervised Fine Tuning，SFT)来进行参考模型的训练。也即是，在参考模型输出语音请求样本的预测结果(如API预测结果、槽位识别结果、参数填充结果等)后，利用该预测结果与语音请求样本的样本标签间的差异，对参考模型中的训练参数(如权重参数和偏置参数)进行反向更新，以使训练完成的参考模型能可靠地完成当前语音请求的处理。

请参阅图9，在本申请某些实施方式中，语音交互方法还包括：

08：将预先配置的车辆领域的知识信息注入基础模型；

09：对基础模型进行训练以得到参考模型。

本申请实施方式的语音交互装置还包括注入模块和基础模型训练模块。其中，注入模块用于将预先配置的车辆领域的知识信息注入基础模型。基础模型训练模块用于对基础模型进行训练以得到参考模型。

本申请实施方式的处理器还用于将预先配置的车辆领域的知识信息注入基础模型，还用于对基础模型进行训练以得到参考模型。

可以理解的是，基础模型一定的通用自然语言处理能力，但针对于特定垂域下的自然语言处理任务，可能因缺乏该垂域的知识而错误地理解该垂域中的字、词的含义，进而难以适用于该垂域的自然语言处理任务。

由此，在本申请实施方式中，服务器可对具备一定自然语言处理能力的基础模型进行知识注入，以将车辆领域的相关知识信息注入至基础模型中，从而使基础模型能正确理解对车辆垂域下的信息。

其中，需说明的是，本申请实施方式中的车辆领域应当广义理解为，与车辆存在直接或间接关系的知识信息。举例而言，与车辆存在直接关系的信息可以是车辆的零部件及其可执行的功能。与车辆存在间接关系的信息可以是与车辆座舱相关的如多媒体功能、导航功能等。

以及，还需说明的是，将上述信息注入基础模型，旨在增强基础模型对于车辆垂域知识的认知和理解，从而减少推理过程中需要对车辆垂域的外部知识进行查询的依赖。

以及，还需明确的是，在本申请实施方式中，可根据预先配置的车辆知识信息对基础模型进行训练，使得基础模型能学习到包括各个与车辆直接或间接相关的知识，进而在推理过程中能可靠地理解语音请求中字词的语义，从而将实体填入正确的接口参数中。

还可以理解的是，基础模型经过训练后可以得到参考模型，生成参考模型的训练过程通常是无监督的。如前述，对于参考模型的更新基于SFT进行，也即是基于已被标注的样本数据来对以完成预训练的语言模型进行更新。其中，已被标注的打样板数据也即是前述示例中的语音请求样本及与语音请求样本对应的样本标签。

或者说，经训练后得到的参考模型能够给出一般性的、通用的回答，但可能与任务的需求存在一些偏差，例如在车辆相关领域，一些接口的参数类型与通常情况存在差别。当进行有监督微调时，模型权重会根据与真实标签的差异进行调整。通过这个调整过程，模型能够捕捉到标签数据中特定于某一任务的模式和特点。使得模型更加精确，更好地适应某一特定任务。

本申请还提供了一种计算机可读存储介质，存储有计算机程序，当计算机程序被一个或多个处理器执行时，实现上述语音交互方法。

在本说明书的描述中，参考术语“具体地”、“进一步地”、“特别地”、“可以理解地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不预定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

接收车辆转发的当前语音请求；

输出所述执行结果下发至车辆完成语音交互。

2.根据权利要求1所述的方法，其特征在于，所述知识数据库包括索引和所述索引对应的数据块，所述根据所述当前语音请求，对预先配置的知识数据库进行检索，得到第一检索结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前语音请求，对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

5.根据权利要求4所述的方法，其特征在于，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述根据所述编码结果对所述知识数据库中的所述索引进行检索，得到目标索引，包括：

6.根据权利要求2所述的方法，其特征在于，所述知识数据库包括多个所述索引及每个所述索引对应的数据块，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述大语言模型的训练步骤包括：

获取语音请求样本和所述语音请求样本对应的样本标签；

8.根据权利要求7所述的语音交互方法，其特征在于，所述方法还包括：

将预先配置的车辆领域的知识信息注入基础模型；

对基础模型进行训练以得到所述参考模型。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-8任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-8任意一项所述的方法。