CN118094445A

CN118094445A - 基于大模型的人机交互方法、装置、设备及程序产品

Info

Publication number: CN118094445A
Application number: CN202410490748.8A
Authority: CN
Inventors: 宁宏伟; 梅林海; 刘权; 王士进; 刘聪; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2024-04-23
Filing date: 2024-04-23
Publication date: 2024-05-28

Abstract

本申请公开了一种基于大模型的人机交互方法、装置、设备及程序产品，属于人工智能技术领域，本申请利用人工智能大模型的能力，结合人机交互历史来确定用户当前的输入请求在各目标维度上的特征值，该目标维度为与衡量用户输入请求是否属于误触发相关的度量维度，综合考虑各目标维度上的特征值，决策用户当前的输入请求是否属于误触发交互，在确定不属于误触发时输出与用户当前的输入请求对应的响应结果。可以有效提升误触发的识别准确度。在识别到用户当前输入请求不属于误触发时，才输出响应结果，保证人机交互的顺畅度，提升了交互体验。

Description

基于大模型的人机交互方法、装置、设备及程序产品

技术领域

本申请涉及人工智能技术领域，更具体的说，是涉及一种基于大模型的人机交互方法、装置、相关设备及程序产品。

背景技术

随着科技的发展，人机交互越来越多的应用于各种场景，示例如，知识问答、智能车机***、虚拟人交互大屏等。

人机交互过程，机器在一些场景下可能会接收到一些上下文不关联的输入或者由于语音识别错误、截断等原因造成的输入，这些输入属于误触发。举例说明如，在嘈杂环境下用户A与机器交互过程，机器可能会将环境中其它用户B的语音识别为输入，此时可能出现用户B的语音内容与在先的用户A的历史输入不相关的情况，该用户B的语音输入即属于一种误触发。另一种示例如，用户A与机器交互过程，由于机器上的麦克风距离用户A较远，导致语音识别错误或者出现截断，该种输入也属于一种误触发。机器若针对误触发的输入仍给出响应的话，会影响交互的顺畅度，降低交互体验。

以往的交互方案主要采用传统神经网络模型如分类模型、抽槽模型对用户输入请求进行意图理解及响应，仅能够实现用户定义范围内的功能，不具备较多的泛化能力。这也恰恰使得机器在面临一些上下文不关联或者由于语音识别错误、截断等原因造成的误触发输入时，不会给出响应。

而随着大模型技术的发展，鉴于大模型具备强大的语言泛化理解和生成能力，越来越多企业将大模型应用于人机交互过程，利用大模型理解用户输入，并给出交互响应。随之而来的问题是，由于大模型具备强大的泛化理解能力，故对上述示例的误触发也能够进行理解和响应，导致严重影响交互的顺畅度，降低了交互体验。

发明内容

鉴于上述问题，提出了本申请以便提供一种基于大模型的人机交互方法、装置、相关设备及计算机程序产品，以识别人机交互过程的误触发，提升人机交互的流畅度及交互体验。具体方案如下：

第一方面，提供了一种基于大模型的人机交互方法，包括：

获取用户当前的输入请求，及人机交互历史；

调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值，所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度；

参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发；

在确定所述用户当前的输入请求不属于误触发时，输出与所述用户当前的输入请求对应的响应结果，所述响应结果为对所述用户当前的输入请求进行意图理解并给出的意图响应结果。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，所述目标维度包括以下至少一项或多项：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值的过程，包括：

获取提示指令prompt格式模板，所述prompt格式模板包括任务指令、交互历史槽、当前输入槽、目标维度槽，所述任务指令用于指示模型按照所述交互历史槽内的人机交互历史，确定所述当前输入槽内的用户当前的输入请求在所述目标维度槽内各目标维度上的特征值；

将所述人机交互历史填充到所述交互历史槽，将所述用户当前的输入请求填充到所述当前输入槽，将所述设定目标维度填充到所述目标维度槽，得到第一提示指令prompt，将所述第一提示指令prompt输入至人工智能大模型，得到模型输出各所述目标维度的特征值。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，所述目标维度包括：上下文关联性、句子表达的领域范围；

则参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发的过程，包括：

若满足条件1和条件2中任意一项，则确定用户当前的输入请求不属于误触发；

所述条件1为，所述用户当前的输入请求与上下文相关联；

所述条件2为，所述用户当前的输入请求对应句子表达的领域范围在预先设定的业务功能范围内。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，所述目标维度还包括：句子通顺度、句子完整性、句子是否有意义；

则参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发的过程，还包括：

若不满足所述条件1和所述条件2，则判断是否满足条件3、条件4、条件5中至少两个条件，若是，则确定用户当前的输入请求不属于误触发，若否，则确定用户当前的输入请求属于误触发；

所述条件3为，所述用户当前的输入请求对应句子满足通顺度要求；

所述条件4为，所述用户当前的输入请求对应句子满足完整性要求；

所述条件5为，所述用户当前的输入请求对应句子有意义。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，在确定所述用户当前的输入请求不属于误触发时，还包括：

将所述用户当前的输入请求计入人机交互历史中。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，还包括：

在确定所述用户当前的输入请求属于误触发时，拒绝对所述用户当前的输入请求进行响应，以及，放弃将所述用户当前的输入请求计入人机交互历史中。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，在确定所述用户当前的输入请求是否属于误触发的同时或之前，该方法还包括：

对所述用户当前的输入请求进行意图理解，并给出意图响应结果作为与所述用户当前的输入请求对应的响应结果。

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，在确定所述用户当前的输入请求不属于误触发后，且在输出与所述用户当前的输入请求对应的响应结果之前，该方法还包括：

在一种可能的设计中，在本申请实施例的第一方面的另一种实现方式中，所述人机交互方法应用于全双工语音交互场景中，则获取用户当前的输入请求的过程，包括：

获取用户当前输入的语音并识别所述语音，得到识别文本作为用户当前的输入请求。

第二方面，提供了一种基于大模型的人机交互装置，包括：

信息获取单元，用于获取用户当前的输入请求，及人机交互历史；

维度特征确定单元，用于调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值，所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度；

误触发判定单元，用于参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发；

交互响应单元，用于在确定所述用户当前的输入请求不属于误触发时，输出与所述用户当前的输入请求对应的响应结果，所述响应结果为对所述用户当前的输入请求进行意图理解并给出的意图响应结果。

第三方面，提供了一种人机交互设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现本申请前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

第四方面，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现本申请前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请前述第一方面中任一项所描述的基于大模型的人机交互方法的各个步骤。

借由上述技术方案，本申请充分利用人工智能大模型的上下文语言理解和逻辑推理等能力，结合人机交互历史来确定用户当前的输入请求在各目标维度上的特征值，该目标维度为与衡量用户输入请求是否属于误触发相关的度量维度，在此基础上，综合考虑各目标维度上的特征值，决策用户当前的输入请求是否属于误触发交互，在确定不属于误触发时，输出与用户当前的输入请求对应的响应结果。本申请在人机交互过程对用户当前输入进行是否为误触发的判断，且将误触发判断的过程划分为递进的两个环节，第一环节借助人工智能大模型的能力可以准确得到用户当前输入请求在各目标维度的特征值，第二环节可以综合各目标维度的特征值，决策用户当前输入请求是否为误触发，可以有效提升误触发的识别准确度。在识别到用户当前输入请求不属于误触发时，才输出响应结果，保证人机交互的顺畅度，提升了交互体验。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的基于大模型的人机交互方法的一流程示意图；

图2为本申请实施例提供的基于大模型的人机交互方法的另一流程示意图；

图3为本申请实施例提供的误触发判断方法的一流程示意图；

图4为本申请实施例提供的一种基于大模型的人机交互装置结构示意图；

图5为本申请实施例提供的人机交互设备的结构示意图。

具体实施方式

在介绍本申请方案之前，首先对本文中涉及到的英文进行解释：

prompt：指示指令。在与AI（如人工智能模型）进行交互时，需要向AI发送的指令，其可以是一段文字描述，比如你和AI交互时输入的“请帮我推荐一首流行音乐”，也可以是按照一定格式的参数描述，比如让AI按照一定格式进行绘图，需要描述相关绘图参数。

人工智能大模型：又可以称之为大型深度学习模型或大模型，是一种基于深度学习技术的人工智能模型，它由数以亿计的参数组成，可以通过对大量数据的学习、训练，实现自然语音处理、图像识别、语音识别等复杂任务。人工智能模型可以包括大语言模型、多模态大模型。

大语言模型：（Large language model，LLM）通常是指具有大量参数和能力的语言模型，它通过在大规模文本数据上进行预训练来学习语言的统计规律和语义关系。这些模型通常使用无监督学习方法，预测下一个词或填充缺失的词，以捕捉语言的上下文和语义信息。大语言模型能够生成连贯的语句、回答问题、完成翻译任务等。LLM的特点是规模庞大，包含数十亿甚至更多的参数，帮助它们学习语言数据中的复杂模式。大语言模型涌现的能力包括上下文学习、指令遵循和循序渐进的推理能力等，随着ChatGPT的发布，LLM相关的研究和应用逐渐爆发，比如Google的PaLM模型、Meta的LLaMA模型等。

多模态大模型是在大语言模型的基础上进一步融合了多模态能力，能够对多种模态的信息进行处理，如图像、文本、音频等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种基于大模型的人机交互方案，能够借助大模型的能力，在人机交互过程对用户输入请求进行误触发的识别判断，进而提升人机交互顺畅度。

本申请的人机交互方案可以适用于多种人机交互场景，示例如人机知识问答场景、智能车机***、虚拟人交互大屏场景等。

本申请方案可以基于具备数据处理能力的人机交互设备实现，该设备可以是手机、机器人、电脑、服务器、云端等。

接下来，结合图1所述，本申请的基于大模型的人机交互方法可以包括如下步骤：

步骤S100、获取用户当前的输入请求，及人机交互历史。

在人机多轮交互过程中，用户每一轮交互过程可以向机器输入请求信息，用户当前的输入请求可以单模态的也可以是多模态的，示例如当前的输入请求可以是语音请求信息、文本请求信息、图像请求信息中的任意一种或多种组合。对于输入的语音请求信息，可以进行语音识别，得到识别文本作为用户当前的输入请求。

以全双工语音交互场景为例，用户可以输入交互语音请求，示例如：“请介绍下黄山的景点”。或者，用户还可以同时输入交互语音请求及文本请求信息，示例如：用户向机器输入一份excel文档，并输入对应的语音请求“请帮我把这份excel文档中的数据整理成曲线图”。再或者，用户可以同时输入交互语音请求及图像请求信息，示例如：用户向机器输入一份图像，并输入对应的语音请求“请基于这幅图像写一篇散文”，或者语音请求可以是“请把这幅图像调整成卡通风格”等。

进一步地，为了便于后续步骤中对用户当前的输入请求进行误触发的判断，本步骤中进一步获取了人机交互历史信息，以该人机交互历史信息辅助进行误触发的判断。

步骤S110、调用配置的人工智能大模型，以指示人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值。

其中，所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度。本实施例中提供了目标维度的一些可选示例，如：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义等。

目标维度可以从上述各维度中任意选取一个或多个的组合。具体选取哪些维度作为目标维度，可以根据人机交互场景的特点而定，示例如，在智能车机***的人机交互场景下，***预先定义了车机所能响应的功能范围列表，如：打开/关闭空调、切换音乐、调整喇叭音量等。显然，对于用户输入请求所表达的领域范围超出上述功能范围列表时，可以判定为属于误触发。基于此，可以将“句子表达的领域范围”设置为目标维度。反之，在其它一些人机交互场景下，如果未预先定义功能范围列表，则可以不将“句子表达的领域范围” 设置为目标维度。

本申请中，利用人工智能大模型所涌现出的自然语言理解、上下文学习及推理能力等，调用人工智能大模型以结合人机交互历史，确定用户当前的输入请求在各目标维度上的特征值。

以上述示例的各目标维度为例，对应的特征值可以包括：

上下文关联性维度：当前输入请求与上下文相关联，或，当前输入请求与上下文不相关联。

句子表达的领域范围维度：当前输入请求对应的句子所表达的领域范围，其用于与预先设定的业务功能范围列表进行对比。

句子通顺度维度：当前输入请求对应的句子的通顺程度，通顺程度可以采用二分类表示，如句子通顺和句子不通顺。此外，通顺程度还可以按照等级或数值进行划分，示例如句子通顺程度取值区间为[0，1]间的数值，此时可以预先设置通顺程度阈值，当句子通顺程度超过通顺程度阈值时，认定句子满足通顺度要求，否则，认定句子不满足通顺度要求。

句子完整性维度：当前输入请求对应的句子的完整性，完整性可以采用二分类表示，如句子表达完整和句子表达不完整。此外，完整性还可以按照等级或数值进行划分，示例如完整性取值区间为[0，1]间的数值，此时可以预先设置完整性阈值，当句子完整性取值超过完整性阈值时，认定句子满足完整性要求，否则，认定句子不满足完整性要求。

句子是否有意义维度：指的是句子是否表达了清晰、完整且符合语法规则的思想或信息。其特征值可以包括两种，即句子有意义和句子无意义。

进一步地，根据步骤S100中获取的用户当前的输入请求及人机交互历史的模态情况，本步骤中所调用的人工智能大模型可以是单模态大模型或多模态大模型。示例如，当用户当前的输入请求及人机交互历史均为文本模态时，则本步骤中可以调用文本模态的大语言模型；当用户当前的输入请求或人机交互历史包括文本、图像、音频中至少两种模态时，则本步骤中可以调用多模态大模型，以实现对多模态输入信息的处理。

步骤S120、参考用户当前的输入请求在设定目标维度上的特征值，确定用户当前的输入请求是否属于误触发。在确定所述用户当前的输入请求不属于误触发时，执行步骤S130。

具体地，上一步骤中通过调用人工智能大模型的能力，得到了当前输入请求在各目标维度上的特征值，目标维度均是与衡量用户输入请求是否属于误触发相关的度量维度，如前文示例的5种维度。本步骤中综合考虑上一步骤中得到的各目标维度的特征值，决策判断用户当前的输入请求是否属于误触发，可以提升误触发判定的准确度。

步骤S130、输出与用户当前的输入请求对应的响应结果。

其中，所述响应结果为对用户当前的输入请求进行意图理解并给出的意图响应结果。

响应结果可以通过语义交互***得到，即采用语义交互***对用户当前的输入请求进行意图理解，并基于识别到的意图给出意图响应结果。其中，语义交互***可以基于人工智能大模型实现，即利用人工智能大模型的能力，对用户的输入请求进行意图理解及输出意图响应结果。

根据人机交互场景的不同，响应结果的形式也可以不同，该响应结果可以是单模态的结果，也可以是多模态的结果。

本步骤中仅在确定用户当前的输入请求不属于误触发时，才输出与用户当前的输入请求对应的响应结果，保证了不会由于用户误触发的输入，机器错误的进行响应，进而影响人机交互顺畅度。

本申请实施例提供的人机交互方法，充分利用人工智能大模型的上下文语言理解和逻辑推理等能力，结合人机交互历史来确定用户当前的输入请求在各目标维度上的特征值，该目标维度为与衡量用户输入请求是否属于误触发相关的度量维度，在此基础上，综合考虑各目标维度上的特征值，决策用户当前的输入请求是否属于误触发交互，在确定不属于误触发时，输出与用户当前的输入请求对应的响应结果。本申请在人机交互过程对用户当前输入进行是否为误触发的判断，且将误触发判断的过程划分为递进的两个环节，第一环节借助人工智能大模型的能力可以准确得到用户当前输入请求在各目标维度的特征值，第二环节可以综合各目标维度的特征值，决策用户当前输入请求是否为误触发，可以有效提升误触发的识别准确度。在识别到用户当前输入请求不属于误触发时，才输出响应结果，保证人机交互的顺畅度，提升了交互体验。

结合图2，示例了本申请的人机交互方法的另一种可选实施例，具体可以包括如下步骤：

步骤S200、获取用户当前的输入请求，及人机交互历史。

步骤S210、调用配置的人工智能大模型，以指示人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值。

步骤S220、参考用户当前的输入请求在设定目标维度上的特征值，确定用户当前的输入请求是否属于误触发。在确定用户当前的输入请求不属于误触发时，执行步骤S230，在确定用户当前的输入请求属于误触发时，执行步骤S240。

上述步骤S200-S220与前述实施例中的步骤S100-S120一一对应，详细参照前文介绍，此处不再赘述。

步骤S230、输出与用户当前的输入请求对应的响应结果，将用户当前的输入请求计入人机交互历史中。

具体地，在确定用户当前的输入请求不属于误触发时，在输出响应结果的同时，还可以将用户当前的输入请求计入人机交互历史中。

步骤S240、拒绝对所述用户当前的输入请求进行响应，以及，放弃将所述用户当前的输入请求计入人机交互历史中。

具体地，在确定用户当前的输入请求属于误触发时，为了保证人机交互的顺畅度，本步骤中可以选择拒绝对用户当前的输入请求进行响应，如不做任何输出响应。同时，为了避免该误触发的输入请求对后续用户输入请求是否为误触发的判断影响，本步骤中可以放弃将用户当前的输入请求计入人机交互历史中。

本实施例中，在确定用户当前输入请求为误触发时，拒绝对当前输入请求进行响应，可以保证人机交互的顺畅度，同时放弃将当前输入请求计入人机交互历史，保证后续误触发识别的准确性。

在本申请的一些实施例中，对于前述步骤S130及步骤S230中输出的与用户请求对应的响应结果，介绍该响应结果的确定过程。

如前文所述，响应结果可以通过语义交互***确定，本实施例中重点介绍响应结果的确定时机。

一种可的实施方式下，可以在步骤S120（或步骤S220）执行的同时或之前，确定该响应结果，即：

对用户当前的输入请求进行意图理解，并给出意图响应结果作为与用户当前的输入请求对应的响应结果。

本文所称的“在X步骤执行的同时”可以是指与“X步骤”并列执行。当然，考虑到计算机程序上的时间误差，此处“同时”包含在时序上很短暂的一段时间范围内，示例如0.1ms内。

此外，上述确定响应结果的过程还可以是在步骤S120之前，示例如可以是在步骤S110之前、之后或同时执行。

考虑到语义交互***确定响应结果的过程需要花费一定时间，为了能够在判定用户当前的输入请求为非误触发时能够及时地输出响应结果，可以设置上述确定响应结果的过程是与步骤S110并发地同时执行，即在获取到用户当前的输入请求及人机交互历史后，即同步执行确定响应结果的过程，以及步骤S110的过程。

当然可以理解的是，若在上述步骤S120的同时或之前执行上述确定响应结果的过程，可能会存在步骤S120最终判断用户当前的输入请求为误触发，此时为了保证人机交互的顺畅度，不会输出响应结果，则上述确定响应结果的过程属于无用操作，额外花费了计算资源。若为了避免这种情况的出现，本申请的另一种可选实施方式下，可以在步骤S120（或步骤S220）的判断结果为用户当前的输入请求不属于误触发之后，且在步骤S130之前，执行上述确定响应结果的过程。

上述实施例中提供了确定响应结果的几种可选执行时机，具体选择哪种执行方式可以根据用户的需要而设定。

在本申请的一些实施例中，对前述步骤S110，调用人工智能大模型，以指示人工智能大模型结合人机交互历史，确定用户当前的输入请求在目标维度上的特征值的过程进行介绍，具体可以包括如下步骤：

S1、获取提示指令prompt格式模板，所述prompt格式模板包括任务指令、交互历史槽、当前输入槽、目标维度槽，所述任务指令用于指示模型按照所述交互历史槽内的人机交互历史，确定所述当前输入槽内的用户当前的输入请求在所述目标维度槽内各目标维度上的特征值。

具体地，为了更好的调用人工智能大模型，本申请实施例设计了一种prompt格式模板，其包括任务指令、交互历史槽、当前输入槽、目标维度槽。其中，交互历史槽用于填充人机交互历史信息，当前输入槽用于填充用户当前的输入请求信息，目标维度槽用于填充预先设定的各目标维度，示例如前文示例的5种维度。任务指令具体用于，指示模型按照人机交互历史，确定用户当前的输入请求在各目标维度上的特征值。

可选的，上述交互历史槽和当前输入槽可以合并为一个信息槽，即将人机交互历史及用户当前的输入请求合并填充至该一个信息槽。

其中，任务指令可以进一步限定特征值的输出格式，比如采用json格式进行输出等。

示例性的，prompt格式模板可以包括：

“假设你是一个智能交互助手，请基于人机交互历史，确定用户当前输入的这句话在每个目标维度上的特征值。

人机交互历史：[交互历史槽]。

当前输入：[交互历史槽]。

目标维度：[目标维度槽]”。

S2、将获取的人机交互历史填充到交互历史槽，将用户当前的输入请求填充到当前输入槽，将设定目标维度填充到目标维度槽，得到第一提示指令prompt，将第一提示指令prompt输入至人工智能大模型，得到模型输出各目标维度的特征值。

以前述示例的prompt格式模板为例，假设人机交互历史为：“用户：介绍一下黄山。***：黄山是中国著名的山岳风景区之一。黄山原名黟山，因峰岩青黑，遥望苍黛而得名。用户：黄山有哪些景点？***：帮您找到黄山一些著名的自然景观，如始信峰、狮子峰、丹霞峰、光明顶等。这些景点以奇松、怪石、云海、温泉、冬雪“五绝”著称，展现了黄山的自然之美。”。

用户当前的输入请求为：“哎，结束啊”。

目标维度包括“上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义”。

将上述信息分别填充到prompt格式模板的相应信息槽中，得到第一提示指令prompt，并送入人工智能大模型，得到模型输出：

{"上下文关联性": "不相关", "句子表达的领域范围": "知识问答","完整性":"句子完整", "句子通顺度": "句子通顺", "句子有无意义": "有意义"}。

显然可知，当前用户的输入请求句子与上文并不相关，即上下文关联性维度的特征值为“不相关”。该输入句子表达的领域范围维度的特征值为“知识问答”，其符合预设的业务功能范围。该输入句子的完整性维度的特征值为“句子完整”。该输入句子的通顺度维度的特征值为“句子通顺”。该输入句子的有无意义维度的特征值为“有意义”。

基于本实施例设计的prompt格式模板，可以引导人工智能大模型结合人机交互历史，从各个目标维度给出特征值，为下一步判定用户当前输入请求是否属于误触发提供参考数据。

本申请所采用的人工智能大模型可以是通用人工智能大模型，也可以是采用任务训练数据对通用人工智能大模型进行预训练后得到的人工智能大模型，从而进一步提升人工智能大模型在上述输出目标维度的特征值这一具体任务下的能力，并且使得人工智能大模型能够掌握前述实施例介绍的提示指令prompt的输入及输出范式。

上述任务训练数据具体可以包括：人机交互历史训练数据及其中每一轮的用户输入在各目标维度的特征值标签。在训练时，可以从人机交互历史训练数据中选择一条目标用户输入作为当前用户输入，将该目标用户输入之前的各条人机交互作为交互历史，填充到prompt格式模板中，得到第一提示指令prompt，并输入到人工智能大模型中，得到模型输出的各目标维度的特征值，并基于该模型输出和任务训练数据中目标用户输入所对应的各目标维度的特征值标签计算损失函数的值，按照损失函数的值更新模型参数。损失函数可以表示为：

其中，w_t表示第t个词，w<t表示前t-1个词，T表示序列长度。训练过程，可以采用梯度下降算法来最小化这个损失函数。

本申请的一些实施例中，介绍前述步骤S120，参考用户当前的输入请求在设定目标维度上的特征值，确定用户当前的输入请求是否属于误触发的可选实现过程。

如前文所述，目标维度可以采用：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义5种维度中的任意一种或多种组合。

以目标维度包括上下文关联性和句子表达的领域范围两种维度为例，则步骤S120的一种可选实现方式可以包括：

判断是否若满足设定的条件1和条件2中任意一项，若是，则确定用户当前的输入请求不属于误触发。其中：

条件1为，用户当前的输入请求与上下文相关联；

条件2为，用户当前的输入请求对应句子表达的领域范围在预先设定的业务功能范围列表内。

本实施例提供的方法中，将上下文关联性和句子表达的领域范围两个维度作为优先级较高的维度，若其中至少一个维度满足要求，则可以认为当前的输入请求不是误触发，避免出现误拒识的问题。

进一步地，当目标维度同时包括上述示例的5种维度时，本实施例进一步提供了步骤S120的另一种可选实现方式。本实施例中，将上下文关联性和句子表达的领域范围两种维度作为第一优先级，将剩余的句子通顺度、句子完整性、句子是否有意义3个维度作为第二优先级。

在上一实现方案的基础上，若判断不满足条件1和条件2，则可以进一步判断是否满足条件3、条件4、条件5中至少两个条件，若是，则确定用户当前的输入请求不属于误触发，若否，则确定用户当前的输入请求属于误触发。其中：

条件3为，用户当前的输入请求对应句子满足通顺度要求；

条件4为，用户当前的输入请求对应句子满足完整性要求；

条件5为，用户当前的输入请求对应句子有意义。

结合图3所示，误触发的判断过程可以包括：

对于用户当前的输入请求query：

首先，进行领域范围判别，即判断句子表达领域范围是否在预先设定的业务功能范围列表内，若是，直接判定为非误触发，若否，进入上下文关联性的判别过程。

上下文关联性的判别，即判定query与人机交互历史是否相关联，若是，直接判定为非误触发，若否，进入剩余3个目标维度的判别过程。

对于句子完整性、句子通顺度和句子是否有意义三个目标维度，若判断至少满足其中2项，则判定为非误触发，否则，判定为属于误触发。

其中，句子完整性的判断过程，即判断query是否满足句子完整性要求；句子通顺度的判断过程，即判断query是否满足句子通顺度要求；句子是否有意义的判断过程，即判断query是否属于有意义的句子。

本申请实施例提供的误触发判断方法中，将上下文关联性和句子表达的领域范围两个目标维度作为第一优先级，也即若用户当前的输入请求与上下文相关联，或者句子表达领域范围属于设定的业务应用功能范围之内，则为了避免出现误拒识的问题，可以直接判定为用户当前的输入请求属于非误触发。进一步，对于句子完整性、句子通顺度、句子是否有意义，三个目标维度与判定用户输入请求是否为误触发有关联，但是优先级相比于前2个目标维度要低一些，即仅依靠其中一个维度的结果进行误触发的判定容易出现误判，以句子完整性为例，则误触发的句子有可能也是完整的，不能仅依靠句子完整性即决策输入是否为误触发，同理针对句子通顺度和句子是否有意义两个维度。在此基础上，本实施例为了平衡误触发的识别召回率及误拒识的容忍度，设置的判断逻辑为：该3个目标维度中存在至少2个维度的判断结果为是时，表明当前输入大概率是非误触发，否则，表明当前输入大概率是误触发。

当然，上述实施例仅示例了误触发的几种可选的判断逻辑，当改变目标维度的选择及数目时，相应的误触发的判断逻辑也可以随之改变。此外，还可以在上述判定逻辑思想的基础上，扩展出其余的多种判断逻辑，本申请不再穷举。

下面对本申请实施例提供的人机交互装置进行描述，下文描述的人机交互装置与上文描述的人机交互方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种基于大模型的人机交互装置结构示意图。

如图4所示，该装置可以包括：

信息获取单元11，用于获取用户当前的输入请求，及人机交互历史；

维度特征确定单元12，用于调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值，所述目标维度为与衡量用户输入请求是否属于误触发相关的度量维度；

误触发判定单元13，用于参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发；

交互响应单元14，用于在确定所述用户当前的输入请求不属于误触发时，输出与所述用户当前的输入请求对应的响应结果，所述响应结果为对所述用户当前的输入请求进行意图理解并给出的意图响应结果。

可选的，上述维度特征确定单元调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值的过程，包括：

可选的，上述目标维度包括以下至少一项或多项：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义。

当所述目标维度包括：上下文关联性、句子表达的领域范围时，上述误触发判定单元参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发的过程，包括：

所述条件1为，所述用户当前的输入请求与上下文相关联；

当所述目标维度同时包括：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义时，上述误触发判定单元参考所述用户当前的输入请求在所述设定目标维度上的特征值，确定所述用户当前的输入请求是否属于误触发的过程，还可以包括：

所述条件5为，所述用户当前的输入请求对应句子有意义。

可选的，上述交互响应单元在确定所述用户当前的输入请求不属于误触发时，还可以将所述用户当前的输入请求计入人机交互历史中。

可选的，上述交互响应单元在确定所述用户当前的输入请求属于误触发时，可以拒绝对所述用户当前的输入请求进行响应，以及，放弃将所述用户当前的输入请求计入人机交互历史中。

可选的，本申请的装置还可以包括：

响应结果确定单元，用于在确定所述用户当前的输入请求是否属于误触发的同时或之前，对所述用户当前的输入请求进行意图理解，并给出意图响应结果作为与所述用户当前的输入请求对应的响应结果。

另一种可选实现方式中，所述响应结果确定单元，可以用于在确定所述用户当前的输入请求不属于误触发后，且在输出与所述用户当前的输入请求对应的响应结果之前，对所述用户当前的输入请求进行意图理解，并给出意图响应结果作为与所述用户当前的输入请求对应的响应结果。

可选的，本申请的人机交互装置可以应用于全双工语音交互场景中，则上述信息获取单元获取用户当前的输入请求的过程，可以包括：

本申请实施例提供的基于大模型的人机交互装置可应用于人机交互设备，如手机、机器人、电脑、服务器、云端等。可选的，图5示出了人机交互设备的硬件结构框图，参照图5，人机交互设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取用户当前的输入请求，及人机交互历史；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取用户当前的输入请求，及人机交互历史；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请前述人机交互方法的各个步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于大模型的人机交互方法，其特征在于，包括：

获取用户当前的输入请求，及人机交互历史；

2.根据权利要求1所述的方法，其特征在于，所述目标维度包括以下至少一项或多项：上下文关联性、句子表达的领域范围、句子通顺度、句子完整性、句子是否有意义。

3.根据权利要求1所述的方法，其特征在于，调用配置的人工智能大模型，以指示所述人工智能大模型结合所述人机交互历史，确定所述用户当前的输入请求在设定目标维度上的特征值的过程，包括：

4.根据权利要求2所述的方法，其特征在于，所述目标维度包括：上下文关联性、句子表达的领域范围；

所述条件1为，所述用户当前的输入请求与上下文相关联；

5.根据权利要求4所述的方法，其特征在于，所述目标维度还包括：句子通顺度、句子完整性、句子是否有意义；

所述条件5为，所述用户当前的输入请求对应句子有意义。

6.根据权利要求1所述的方法，其特征在于，在确定所述用户当前的输入请求不属于误触发时，还包括：

将所述用户当前的输入请求计入人机交互历史中。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，在确定所述用户当前的输入请求是否属于误触发的同时或之前，该方法还包括：

9.根据权利要求1所述的方法，其特征在于，在确定所述用户当前的输入请求不属于误触发后，且在输出与所述用户当前的输入请求对应的响应结果之前，该方法还包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述人机交互方法应用于全双工语音交互场景中，则获取用户当前的输入请求的过程，包括：

11.一种基于大模型的人机交互装置，其特征在于，包括：

12.一种人机交互设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~10中任一项所述的基于大模型的人机交互方法的各个步骤。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~10中任一项所述的基于大模型的人机交互方法的各个步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1~10中任一项所述的基于大模型的人机交互方法的各个步骤。