CN117574410B

CN117574410B - 风险数据检测方法及装置

Info

Publication number: CN117574410B
Application number: CN202410057408.6A
Authority: CN
Inventors: 胡跃; 屠静; 王亚
Original assignee: Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Current assignee: Zhuo Shi Zhi Xing Tianjin Technology Co ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-05
Anticipated expiration: 2044-01-16
Also published as: CN117574410A

Abstract

本申请公开了一种风险数据检测方法及装置，涉及计算机技术领域。方法包括：获取大语言模型的输入数据以及对应的输入向量；利用输入向量，从输入检测集中确定目标风险向量和目标安全向量，其中，目标风险向量为与输入向量最相似的风险向量，目标安全向量为与输入向量最相似的安全向量；利用输入向量、目标风险向量以及目标安全向量，计算第一参数和第二参数，并确定输入数据的初步检测结果；若初步检测结果为安全数据，对输出数据进行异常检测，以确定输入数据的最终检测结果，输出数据为利用大语言模型对输入数据进行推理所得到的数据。采用本发明，可有效检测风险数据，避免大语言模型输出包含敏感内容的数据，提升大语言模型的安全性。

Description

风险数据检测方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种风险数据检测方法及装置。

背景技术

大语言模型（Large Language Model，LLM）是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等。

提示词是一种提供给大语言模型的文本，可用于引导大语言模型完成特定的任务，例如，在和大语言模型对话时，可利用提示词引导其给出更加精准的回答。

然而，提示词除了可引导大语言模型更加出色地完成任务，也可以引导其输出包含敏感内容的数据，例如，违规数据或者隐私数据等。这类提示词对于大语言模型而言是风险数据，目前，亟需一种方式对风险数据进行有效检测，以提升大语言模型的安全性。

发明内容

本申请实施例提供一种风险数据检测方法及装置，可以有效检测风险数据，以提升大语言模型的安全性。

本申请实施例提供一种风险数据检测方法，该方法包括：

获取大语言模型的输入数据，以及所述输入数据对应的输入向量，所述输入数据为文本形式的提示词；

利用所述输入向量，从输入检测集中确定目标风险向量和目标安全向量，其中，所述输入检测集包括每个风险提示词对应的风险向量以及每个安全提示词对应的安全向量，所述目标风险向量为所述输入检测集中与所述输入向量最相似的风险向量，所述目标安全向量为所述输入检测集中与所述输入向量最相似的安全向量；其中，与所述输入向量最相似的风险向量是指与所述输入向量的余弦距离最小的风险向量，与所述输入向量最相似的安全向量是指与所述输入向量的余弦距离最小的安全向量；

利用所述输入向量、所述目标风险向量以及所述目标安全向量，计算第一参数和第二参数；

根据所述第一参数和所述第二参数，确定所述输入数据的初步检测结果；

若所述初步检测结果为安全数据，对输出数据进行异常检测，以确定所述输入数据的最终检测结果，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据。

本申请实施例还提供一种风险数据检测装置，该装置包括：

获取模块，用于获取大语言模型的输入数据，以及所述输入数据对应的输入向量，所述输入数据为文本形式的提示词；

确定模块，用于利用所述输入向量，从输入检测集中确定目标风险向量和目标安全向量，其中，所述输入检测集包括每个风险提示词对应的风险向量以及每个安全提示词对应的安全向量，所述目标风险向量为所述输入检测集中与所述输入向量最相似的风险向量，所述目标安全向量为所述输入检测集中与所述输入向量最相似的安全向量；其中，与所述输入向量最相似的风险向量是指与所述输入向量的余弦距离最小的风险向量，与所述输入向量最相似的安全向量是指与所述输入向量的余弦距离最小的安全向量；

计算模块，用于利用所述输入向量、所述目标风险向量以及所述目标安全向量，计算第一参数和第二参数；

初步检测模块，用于根据所述第一参数和所述第二参数，确定所述输入数据的初步检测结果；

最终检测模块，用于若所述初步检测结果为安全数据，对输出数据进行异常检测，以确定所述输入数据的最终检测结果，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据。

本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种风险数据检测方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种风险数据检测方法中的步骤。

本申请实施例可以获取到大语言模型的输入数据，以及该输入数据对应的输出向量，通过该输入向量从输入检测集中确定出目标风险向量和目标安全向量；再根据输入向量、目标风险向量以及目标安全向量，计算第一参数和第二参数，再利用第一参数和第二参数，先确定输入数据的初步检测结果；在初步检测结果为安全数据时，继续对输入数据对应的输出数据进行异常检测，以确定出输入数据的最终检测结果。通过计算第一参数和第二参数可准确地确定初步检测结果，在初步检测结果为安全数据时，继续对输出数据进行异常检测，可实现全面的检测，避免风险数据引导大语言模型输出敏感信息，从而提升大语言模型的安全性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的风险数据检测方法的应用场景示意图；

图2是本申请实施例提供的风险数据检测方法的流程示意图；

图3是本申请实施例提供的确定初步检测结果的流程示意图；

图4是本申请实施例提供的异常检测的流程示意图；

图5是本申请实施例提供的风险数据检测装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能技术的快速发展，大语言模型（Large Language Model，LLM）是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义，其可以处理多种自然语言任务，如文本分类、问答、对话等。LLM可以模拟人类和用户对话，便于用户获取知识或辅助用户完成任务。提示词是用来辅助LLM完成任务的文本，它可以指导LLM更好地生成相关内容。然而，精心设计的提示词也会成为攻击LLM的利器，以引导LLM输出包含敏感内容的数据。

目前，利用提示词攻击LLM可以达到如下目的：1、暴露、劫持或复写***内部提示词；2、让语言模型***返回攻击者有目的的误导信息、隐私信息、敏感信息、不良信息甚至危险的信息；3、通过提示词注入***中的其他插件，使语言模型***成为攻击者攻击其他用户的工具。

目前缺乏有效的方式检测这类提示词，从而难以提升大语言模型的安全性。由此，发明人提出了本申请中的一种风险数据检测方法及装置，可有效检测风险数据，以提升大语言模型的安全性。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请提供了一种风险数据检测方法及装置，请参阅图1，示出了风险数据检测方法的应用场景示意图，其中，该应用场景中可以包括终端101和服务器102。终端101可以是手机、平板电脑、智能蓝牙设备、智能穿戴设备、笔记本电脑、或者个人电脑（PersonalComputer，PC）、车载终端等设备；服务器102可以是单一服务器，也可以是由多个服务器组成的服务器集群。

终端101和服务器102之间可通过网络进行数据交互，例如，终端101可获取到用户的输入数据，然后可由终端101将输入数据发送至服务器102，服务器102可获取到输入数据，并基于该输入数据获取到输入向量。

然后，由服务器102利用输入向量，从输入检测集中确定目标风险向量和目标安全向量；利用输入向量、目标风险向量以及目标安全向量，计算第一参数和第二参数；根据第一参数和所述第二参数，确定输入数据的初步检测结果；若初步检测结果为安全数据，对输出数据进行异常检测，以确定输入数据的最终检测结果，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据。

其中，不论上述的初步检测结果和最终检测结果如何，服务器102均需发送相应的反馈信息给终端101。若初步检测结果为风险数据或最终检测结果为风险数据，可由服务器102将该检测结果和提示信息作为反馈信息发送至终端101，以展示给用户，其中，提示信息可以是提示用户重新输入正常的数据或输入安全数据。若最终检测结果为安全数据，可由服务器102将输出数据作为反馈信息发送至终端101，以展示给用户，实现交互。

以下将对本申请提供的风险数据检测方法进行详细说明。

在本实施例中，提供了一种风险数据检测方法，如图2所示，该风险数据检测方法的具体流程可以如下：

S110、获取大语言模型的输入数据，以及所述输入数据对应的输入向量。

其中，大语言模型是指和用户进行交互的神经网络模型，可以生成自然语言文本或理解语言文本的含义，该大语言模型可实现智能问答等功能。输入数据是指输入至大语言模型中，用于和大语言模型进行互动的数据，该输入数据可以是由用户输入的，也可以是根据算法自动生成的。

输入数据为文本形式的提示词，提示词为指引大语言模型执行任务的信息，输入向量是指输入数据的向量表示，可通过预先训练好的词向量模型对输入数据进行处理，以得到输入数据对应的输入向量。其中，词向量模型可以是BERT模型。

S120、利用所述输入向量，从输入检测集中确定目标风险向量和目标安全向量。

其中，输入检测集为预先设置好的向量数据集，可存放于向量数据库中，该输入检测集中可以包括多个风险提示词以及每个风险提示词对应的风险向量。其中，风险提示词是指引导LLM输出敏感内容的提示词，该风险提示词可以预先从网络上收集，然后，使用预先训练好的词向量模型，对收集到的每个风险提示词进行处理，以得到风险提示词对应的风险向量。

输入检测集还可以包括多个安全提示词以及每个安全提示词对应的安全向量。其中，安全提示词是指不会使得LLM输出敏感内容的提示词，安全提示词可以预先从网络上收集，然后，使用预先训练好的词向量模型，对收集到的每个安全提示词进行处理，以得到安全提示词对应的安全向量。

作为一种实施方式，输入检测集中可通过标签区分安全提示词和风险提示词，例如，安全提示词具有第一标签，风险提示词具有第二标签。在本申请实施例中，第一标签可以是0，第二标签可以是1，也即，风险提示词和其对应的风险向量以如下结构存储：{“index”: “”, “text”: “”, “embedding”: [], “malicious”:1, “id”:“”,........}；安全提示词和其对应的安全向量以如下结构存储： {“index”: “”,“text”: “”, “embedding”: [], “malicious”:0, “id”: “”,........}。

其中，index表示该风险提示词在向量数据库中的索引，text表示风险提示词的文本内容，embedding表示风险向量，malicious表示区分安全提示词和风险提示词的标签，id表示该风险提示词的唯一标识符。

由此可知，输入检测集中可包含多个风险提示词以及对应的风险向量，多个安全提示词以及对应的安全向量。目标风险向量则是指输入检测集中与输入向量最相似的风险向量，目标安全向量则是指输入检测集中与输入向量最相似的安全向量。

作为一种实施方式，可以计算输入向量和每个风险向量之间的相似度，利用相似度确定与输入向量最相似的风险向量，作为目标风险向量，计算输入向量和每个安全向量之间的相似度，利用相似度确定和输入向量最相似的安全向量作为目标安全向量。在本申请实施例中，此处的相似度可以是指两个向量之间的余弦距离，其中，余弦距离越小，两个向量越相似。

S130、利用所述输入向量、所述目标风险向量以及所述目标安全向量，计算第一参数和第二参数。

其中，第一参数表示目标安全向量在输入向量上的投影与输入向量的距离，减去目标风险向量在输入向量上的投影与输入向量的距离，然后按输入向量做归一化所得到的值。第二参数表示目标安全向量在输入向量上的投影与目标风险向量在输入向量上的投影的距离，然后按输入向量做归一化所得到的值。

其中，第一参数可按照如下公式进行计算：

；

其中，D1表示第一参数，t_i为输入向量的第i个元素，x_i为目标风险向量的第i个元素，y_i为目标安全向量的第i个元素， n为维度数，输入向量、目标风险向量以及目标安全向量的维度数相同。

第二参数可按照如下公式进行计算：

；

其中，D2表示第二参数，t_i为输入向量的第i个元素，x_i为目标风险向量的第i个元素，y_i为目标安全向量的第i个元素，n为维度数，输入向量、目标风险向量以及目标安全向量的维度数相同。其中，第一参数和第二参数满足如下关系：-D2<=D1<=D2。

S140、根据所述第一参数和所述第二参数，确定所述输入数据的初步检测结果。

在计算得到第一参数和第二参数之后，可以利用第一参数和第二参数，确定输入数据的初步检测结果。可参阅图3，示出了确定初步检测结果的流程示意图。

作为一种实施方式，可以是比较第一参数和第一阈值，比较第二参数和第二阈值，根据比较结果确定出初步检测结果。例如，若所述第一参数大于第一阈值，确定所述输入数据的初步检测结果为风险数据；在所述第一参数大于第一阈值的情况下，若所述第二参数大于第二阈值，将所述输入数据作为风险提示词存入所述输入检测集中；若所述第一参数不大于第一阈值，且所述第二参数不大于第二阈值，根据所述输入数据和所述风险提示词，确定所述输入数据的初步检测结果。

其中，第一阈值和第二阈值可根据实际的需要进行设置，在此不做具体限定。若第一参数大于第一阈值，可认为输入向量在目标风险向量和目标安全向量之间，更加靠近目标风险向量，即输入向量与目标风险向量之间的相关性较高，可判定输入数据为风险数据。在初步检测结果为风险数据时，可将该初步检测结果输出并提示用户输入正常的数据。

在判定输入数据为风险数据后，可确定是否将该输入数据存入输入检测集中，以扩展输入检测集中风险提示词的数据量，进而提升后续检测的准确度。作为一种实施方式，可以是在确定输入数据的初步检测结果为风险数据的情况下，可继续对比第二参数和第二阈值，若第二参数大于第二阈值，则将输入数据作为风险提示词存入输入检测集中。例如，按照如下格式存储输入数据：{“index”: “”, “text”: “”, “embedding”: [],“malicious”:1, “id”: “”,........}。

需要说明的是，第一参数小于等于第二参数，在第一参数大于第一阈值时，若第二参数大于第二阈值，可认为输入向量和目标风险向量的相关性非常高，可将输入数据加入输入检测集中，以扩展输入检测集。

若第一参数不大于第一阈值，且第二参数不大于第二阈值，可以利用输入数据和风险提示词继续判断，以确保检测的准确性。其中，风险提示词是预先存储在输入检测集中的数据，和风险向量一一对应。

可选地，在利用输入数据和风险提示词确定输入数据的初步检测结果时，可以是从所述输入检测集中，随机选择预设数量个风险提示词；计算所述输入数据与每个所述风险提示词之间的文本相似度；若最大的文本样本相似度大于第三阈值，确定所述输入数据的初步检测结果为风险数据；若最大的文本相似度不大于第三阈值，确定所述输入数据的初步检测结果为安全数据。

其中，预设数量可根据实际的需要进行设置，在此不做具体限定，从输入检测集中随机选择预设数量个风险提示词，以供后续使用。然后，可计算输入数据和选择的每个风险提示词之间的文本相似度，文本相似度越大，表示输入数据和该风险提示词越相似。可选地，该文本相似度可以是余弦相似度。

然后确定多个文本相似度中最大的文本相似度，若最大的文本相似度大于第三阈值，可认为输入数据和风险提示词较为相似，可直接确定输入数据的初步检测结果为风险数据。若最大的文本相似度不大于第三阈值，可认为输入数据和风险提示词不相似，可确定输入数据的初步检测结果为安全数据。

在一些实施方式中，计算输入数据和风险提示词之间的样本相似度的步骤可由大语言模型执行。为了便于描述，后文将该步骤称为自评估任务，例如，图3中，选择预设数量个风险提示词后，则执行自评估任务。

该自评估任务的关键内容如下：task：样本对比。Description：给你一个text和多个malicious样本text，请将text和各个malicious样本text进行对比并按照相似度进行排序，请严格按照Output对应格式的json数据给出输出，Output中的“key”对应的value填入样本序号，Output中的“sim”对应的value填入0到1的文本相似度，取小数点后两位。

例如，Malicious：样本1.mmmmm。样本2. nnnnnnn。......样本n.hhhhhhhhh。text：tttttttttt......，对应的Output为：[{“key“:1,”sim”:float},{“key“:2,”sim”:float}......{“key“:3,"sim”:float}]。

其中，该自评估任务是一个prompt任务，样本1，样本2……则为选择的多个风险提示词，text则为输入数据。具体在执行自评估任务时，可以将随机选择的风险提示词和输入数据填入对应的字段中，然后执行自评估任务，以获取到自评估任务的输出。由于自评估任务的输出中，以文本相似度排序，第一项为文本相似度的最大值，由此，可直接比较该第一项的文本相似度和第三阈值，以确定输入数据的初步检测结果。例如，结果为[{“key“:4,”sim”:0.71},{“key“:2,”sim”:0.45},......{“key“:n,"sim”:0.12}]，则可以直接比较0.71和第三阈值，若0.71大于第三阈值，可判定输入数据为风险数据。

S150、若所述初步检测结果为安全数据，对输出数据进行异常检测，以确定所述输入数据的最终检测结果。

其中，输出数据是指大语言模型对输入数据进行推理，所得到的输出，为了提升检测的准确性和全面性，在输入数据的初步检测结果为安全数据时，可继续对输出数据进行异常检测，若输出数据中仍然包含了敏感信息，或者输入数据并非是输入数据对应的预期数据，也可认为该输入数据是风险数据。

作为一种实施方式，若初步检测结果为安全数据，对输出数据进行异常检测，以确定输入数据的最终检测结果时，可以是将所述输入数据以及所述输入向量写入缓存队列中；利用所述输入数据执行指定任务，并获取所述指定任务对应的指定输出；若所述指定输出的格式为预设格式，获取执行所述指定任务时生成的任务标识；若在所述指定输出中检测到所述任务标识，根据输出检测集、所述指定输出中的所述输出数据以及输出关键词，确定所述输入数据的最终检测结果，其中，所述输出关键词为从所述输出数据中提取出的关键词；若所述指定输出的格式不为预设格式，或者未在所述指定输出中检测到所述任务标识，从所述输入检测集中确定一指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果。

可参阅图4，示出了异常检测的流程示意图，下面将结合图4进行详细说明。其中，若输入数据的初步检测结果为安全数据，可将该输入数据以及对应的输入向量存入缓存队列中，以供后续使用。

指定任务可以是指预先设置的prompt任务，该指定任务的关键内容为：“task：输出关键词和特征串。Description:按照Output格式的json数据给出输出，根据用户输入的内容进行QA任务得到输出“qa”对应的value中，并对“qa”内容进行关键词提取任务填入“keys”对于的value中，将固定特征串uuid填入“uuid”对应的value中。

例如，特征串为123456-1111-2222-3333-9876541。Output：{“qa”:QA任务的输出,“keys”：[]，“uuid”:“123456-1111-2222-3333-9876541”}。用户输入：xxxxx。.......”。

由此可知，若正常执行指定任务，可得到具有预设格式的指定输出，若发生了prompt劫持现象，则指定输出的格式会发生变化。由此，在利用输入数据执行指定任务，并获取到指定任务对应的指定输出后，可先判断指定输出的格式是否为预设格式。例如，前述举例中的指定任务，其定义的输出中含有特征串，可先检测指定输出中是否有特征串。若没有检测到特征串，可认为指定输出的格式不为预设格式，发生了prompt劫持现象；若检测到特征串，可认为指定输出的格式为预设格式。

若判定指定输出的格式为预设格式，可获取执行该指定任务时所生成的任务标识，该任务标识在执行指定任务时生成，并作为指定输出中的特征串输出。然后，可继续在指定输出中检测该任务标识，若检测到该任务标识，可利用输出检测集、指定输出中的输出数据以及输出关键词，确定输入数据的最终检测结果。

输出检测集可以存放在向量数据库中，该输出检测集中可以包含预先收集的多个输出风险词，以及每个输出风险词对应的输出风险向量。该输出风险词是指需要过滤或禁止输出的内容，具体可根据实际的需要进行设置，例如，“私密”、“机密”等词语均可作为输出风险词。其中，该输出风险词可按如下结构存储：{“index”: “”, “text”: “”,“embedding”: [], “blacklist”:1, “id”: “”,........}。

其中，index表示该输出风险词在向量数据库中的索引，text表示输出风险词的文本内容，embedding表示输出风险向量，blacklist表示其是否属于输出检测集，为1表示其在输出检测集中，id表示该输出风险词的唯一标识符。

需要说明的是，由于指定输出为预设格式，且在指定输出中检测到任务标识，则该指定输出中可以包括输出数据、输出关键词以及任务标识。其中，输出数据是指以输入数据作为问答任务的输入，利用大语言模型对其推理所得到的答案。输出关键词是指对输出数据进行关键词提取，从输出数据中提取出的关键词，该输出关键词可以是多个。

若判定指定输出的格式不为预设格式，或者未在指定输出中检测到任务标识，可认为发生了prompt劫持现象，可从输入检测集中确定一指定数据，并基于该指定数据和缓存队列，确定输入数据的最终检测结果。

其中，输入检测集可以包含多个检测子集，例如攻击检测子集、劫持检测子集、安全数据子集等，攻击检测子集中可存放有泄露隐私的风险提示词，劫持检测子集中可存放有劫持大语言模型的输出的风险提示词，这些均可预先设置并存储。在从输入检测集中确定指定数据时，则从劫持检测子集中随机选择一个即可。

作为一种实施方式，风险提示词在存储时，除了携带有区分安全和风险的标签，还可以携带有区别其类型的标签，例如，不同类型的风险提示词还可以携带不同的类型标签，例如，攻击检测子集中的风险提示词可携带有类型标签s1，劫持检测子集中的风险提示词可携带有类型标签s2。从而，根据类型标签可选择劫持检测子集中风险提示词作为指定数据使用。

在一些实施方式中，在将输入数据以及输入向量写入缓存队列之后，还可以更新初步检测结果为安全数据的输入数据的数量，得到更新数量；若所述更新数量大于第四阈值，将所述初步检测结果为安全数据的输入数据的数量重置为初始数量，并将所述输入数据以及所述输入向量存入所述输入检测集中。

其中，初步检测结果为安全数据的输入数据的数量可通过计数器的值获取到，例如，每将一个输入数据及对应的输入向量写入缓存队列的同时，可令计数器的值加1，得到更新数量。第四阈值可根据实际的需要进行设置，在此不做具体限定，可比对更新数量和第四阈值，若更新数量大于第四阈值，将计数器的值重置为初始数量，并将输入数据和输入向量存入输入检测集中。例如，按照格式：{“index”: “”, “text”: “”, “embedding”: [],“malicious”:0, “id”: “”,........}写入输入检测集中。其中，初始数量也可根据实际的需要进行设置，在本申请实施例中，初始数量可设置为0。若更新数量不大于第四阈值，则继续计数，不做其他处理。

在一些实施方式中，根据输出检测集、输出数据以及输出关键词，确定输入数据的最终检测结果时，可以是计算所述输出数据和每个所述输出风险词之间的语义相似度；若最大的语义相似度大于第五阈值，将所述最大的语义相似度对应的输出风险词作为指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果；若最大的所述语义相似度不大于所述第五阈值，计算所述输出关键词和每个所述输出风险词之间的词义相似度；若最大的词义相似度大于第六阈值，将所述最大的词义相似度对应的输出风险词作为指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果；若最大的词义相似度不大于第六阈值，确定所述输入数据的最终检测结果为安全数据。

由于输出检测集中包括多个输出风险词，为了确保输出数据中不包含敏感信息，可计算输出数据和每个输出风险词之间的语义相似度。例如，可获取到每个输出风险词对应的输出风险词向量，该输出风险词向量也可以预先存储在输出检测集中，然后利用词向量模型获取到输出数据的输出向量，计算输出向量和每个输出风险词向量之间的余弦相似度作为语义相似度，可得到每个输出风险词对应的语义相似度。

然后获取多个语义相似度中的最大值，若该最大值大于第五阈值，表明输出数据和输出风险词语义较为相似，则该输出数据对应的输入数据可能为风险数据，可该最大值对应的输出风险词作为指定数据，并基于指定数据和缓存队列，确定输入数据的最终检测结果。

若最大值不大于第五阈值，表明输出数据的语义和输出风险词不相似，为了更加准确全面地检测输出数据，可以继续计算输出关键词和每个输出风险词之间的词语相似度，类似的，词义相似度可以是指输出关键词和输出风险词之间的余弦相似度。

然后，比较最大的词义相似度和第六阈值，若最大的词义相似度大于第六阈值，表明输出数据中的某个词语和输出风险词的含义相似，则输出数据对应的输入数据可能为风险数据，可将最大的词义相似度对应的输出风险词作为指定数据，并基于指定数据和缓存队列，确定输入数据的最终检测结果。

若最大的词义相似度不大于第六阈值，表明输出数据的语义和其中的词语的词义均和风险提示词不相似，该输出数据是不包含敏感内容的，从而可确定其对应的输入数据的最终检测结果为安全数据。

其中，第五阈值和第六阈值均可根据实际的需要进行设置，在此不做具体限定。

在一些实施方式中，基于指定数据和缓存队列，确定输入数据的最终检测结果时，可以是针对所述缓存队列中的每个输入向量，根据所述输入向量与所述指定数据，计算所述输入向量对应的第三参数；若所述第三参数小于第七阈值，确定所述输入向量对应的输入数据的最终检测结果为风险数据；若所述第三参数不小于第七阈值，确定所述输入向量对应的输入数据的最终检测结果为安全数据。

缓存队列中可包括多个输入向量，针对缓存队列中的每个输入向量，根据输入向量和指定数据，计算输入向量对应的第三参数。其中，第三参数表示缓存队列中的输入向量在指定向量上的投影与指定向量的距离，然后按照指定向量做归一化，指定向量为指定数据的向量表示，由于指定数据是从输入检测集中确定的，或者是从输出检测集中确定的，则可以直接获取到其对应的指定向量。

第三参数可通过如下公式计算得到：

；

其中，b_i表示指定向量的第i个元素，z_i表示缓存队列中的一个输入向量的第i个元素，n为维度数，缓存队列中的输入向量的维度数和指定向量的维度数相同。

通过上述计算可得到缓存队列中的每个输入向量对应的第三参数，然后可比较第三参数和第七阈值，若第三参数小于第七阈值，表明缓存队列中的某个输入向量和指定数据的差异较小，可确定该输入向量对应的输入数据的最终检测结果为风险数据。若第三参数不小于第七阈值，表明缓存队列中的某个输入向量和指定数据的差异较大，可认为该输入向量对应的输入数据的最终检测结果为安全数据。其中，第七阈值可根据实际的需要进行设置，在此不做具体限定。

若输入数据的最终检测结果为风险数据，则将该输入数据作为风险提示词存入输入检测集中。例如，按照格式：{“index”: “”, “text”: “”, “embedding”: [],“malicious”:1, “id”: “”,........}写入输入检测集中。

当输入数据的初步检测结果为风险数据，或者最终检测结果为风险数据时，还可向用户反馈对应的检测结果，并提示用户输入安全的数据，可选地，还可以给出对应理由。当输入数据的最终检测结果为安全数据时，可将指定输出中的输出数据反馈给用户。作为一种实施方式，为了提升用户体验，还可以在初步检测结果为风险数据并提示用户输入安全的数据时，提供一申诉控件，在用户点击该申诉控件后，可将对应的输入数据再次提交到后台，再执行对输出数据进行异常检测的步骤，或者由人工进行判断。

本申请实施例提供的风险数据检测方案可以应用在基于大语言模型的问答场景中，例如，车载对话助理，智能问答助手等。采用本申请实施例提供的风险数据检测方法，可有效检测风险数据，避免大语言模型输出包含敏感信息的数据，以提升大语言模型的安全性。

通过本申请实施例提供的方法，可以先从输入检测集中确定出和输入向量最相似的目标风险向量和目标安全向量，并利用第一参数和第二参数确定输入数据更加靠近目标风险向量还是目标安全向量；在初步检测结果为安全数据时，进一步对输入数据对应的输出数据进行异常检测，以确定输入数据的最终检测结果。不仅对输入数据进行检测，同时也对输出数据进行检测，可有效检测出风险数据，提升大语言模型的安全性。并且，可将部分被检测为风险数据的输入数据存入输入检测集中，也可扩展数据量，为后续对风险数据的研究提供基础，且随着输入检测集的数据量的逐渐增多，也可提升风险数据检测的准确度。

为了更好地实施以上方法，本申请实施例还提供一种风险数据检测装置，该风险数据检测装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑、智能手表、车载终端等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以风险数据检测装置具体集成在服务器为例，对本申请实施例的方法进行详细说明。

例如，如图5所示，该风险数据检测装置200可以包括：

获取模块210，用于获取大语言模型的输入数据，以及所述输入数据对应的输入向量，所述输入数据为文本形式的提示词；

确定模块220，用于利用所述输入向量，从输入检测集中确定目标风险向量和目标安全向量，其中，所述输入检测集包括每个风险提示词对应的风险向量以及每个安全提示词对应的安全向量，所述目标风险向量为所述输入检测集中与所述输入向量最相似的风险向量，所述目标安全向量为所述输入检测集中与所述输入向量最相似的安全向量；其中，与所述输入向量最相似的风险向量是指与所述输入向量的余弦距离最小的风险向量，与所述输入向量最相似的安全向量是指与所述输入向量的余弦距离最小的安全向量；

计算模块230，用于利用所述输入向量、所述目标风险向量以及所述目标安全向量，计算第一参数和第二参数；

初步检测模块240，用于根据所述第一参数和所述第二参数，确定所述输入数据的初步检测结果；

最终检测模块250，用于若所述初步检测结果为安全数据，对输出数据进行异常检测，以确定所述输入数据的最终检测结果，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据。

在一些实施例中，计算模块230通过如下公式计算第一参数和第二参数：

；

其中，D1表示第一参数；D2表示第二参数；t_i为输入向量的第i个元素，x_i为目标风险向量的第i个元素，y_i为目标安全向量的第i个元素， n为维度数，输入向量、目标风险向量以及目标安全向量的维度数相同。

在一些实施例中，输入检测集中包括风险向量对应的风险提示词，初步检测模块240还包括：

第一判定单元，用于若所述第一参数大于第一阈值，确定所述输入数据的初步检测结果为风险数据；

存储单元，用于在所述第一参数大于第一阈值的情况下，若所述第二参数大于第二阈值，将所述输入数据作为风险提示词存入所述输入检测集中；

第二判定单元，用于若所述第一参数不大于第一阈值，且所述第二参数不大于第二阈值，根据所述输入数据和所述风险提示词之间的文本相似度，确定所述输入数据的初步检测结果。

在一些实施例中，第二判定单元用于：

从所述输入检测集中，随机选择预设数量个风险提示词；

计算所述输入数据与每个所述风险提示词之间的文本相似度；

若最大的文本相似度大于第三阈值，确定所述输入数据的初步检测结果为风险数据；

若最大的文本相似度不大于第三阈值，确定所述输入数据的初步检测结果为安全数据。

在一些实施例中，最终检测模块250还包括：

缓存单元，用于将所述输入数据以及所述输入向量写入缓存队列中；

指定执行单元，用于利用所述输入数据执行指定任务，并获取所述指定任务对应的指定输出；

标识获取单元，用于若所述指定输出的格式为预设格式，获取执行所述指定任务时生成的任务标识；

第一确定单元，用于若在所述指定输出中检测到所述任务标识，根据输出检测集、所述指定输出中的所述输出数据以及输出关键词，确定所述输入数据的最终检测结果，其中，所述输出关键词为从所述输出数据中提取出的关键词；

第二确定单元，用于若所述指定输出的格式不为预设格式，或者未在所述指定输出中检测到所述任务标识，从所述输入检测集中确定一指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果。

在一些实施例中，将所述输入数据以及所述输入向量写入缓存队列中之后，缓存单元还用于：

更新初步检测结果为安全数据的输入数据的数量，得到更新数量；

若所述更新数量大于第四阈值，将所述初步检测结果为安全数据的输入数据的数量重置为初始数量，并将所述输入数据以及所述输入向量存入所述输入检测集中。

在一些实施例中，所述输出检测集中包括多个输出风险词，第一确定单元具体用于：

计算所述输出数据和每个所述输出风险词之间的语义相似度；

若最大的语义相似度大于第五阈值，将所述最大的语义相似度对应的输出风险词作为指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果；

若最大的所述语义相似度不大于所述第五阈值，计算所述输出关键词和每个所述输出风险词之间的词义相似度；

若最大的词义相似度大于第六阈值，将所述最大的词义相似度对应的输出风险词作为指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果；

若最大的词义相似度不大于第六阈值，确定所述输入数据的最终检测结果为安全数据。

在一些实施例中，第二确定单元具体用于：

针对所述缓存队列中的每个输入向量，根据所述输入向量与所述指定数据，计算所述输入向量对应的第三参数；

若所述第三参数小于第七阈值，确定所述输入向量对应的输入数据的最终检测结果为风险数据；

若所述第三参数不小于第七阈值，确定所述输入向量对应的输入数据的最终检测结果为安全数据。

在一些实施方式中，第二确定单元通过如下公式计算第三参数：

；

其中，D3表示所述第三参数；其中b_i为指定数据对应的指定向量的第i个元素，z_i为缓存队列的其中一个输入向量的第i个元素，n为维度数，缓存队列中的输入向量的维度数和指定向量的维度数相同。

具体实施时，以上各个模块或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块或单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的风险数据检测装置可以利用输入向量，从输入检测集中确定出和输入向量最相似的目标风险向量和目标安全向量，并利用第一参数和第二参数确定输入数据的初步检测结果；在初步检测结果为安全数据时，进一步对输入数据对应的输出数据进行异常检测，以确定输入数据的最终检测结果。不仅对输入数据进行检测，同时也对输出数据进行检测，可有效检测出风险数据，提升大语言模型的安全性。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，车载终端等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图6所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器310、一个或一个以上计算机可读存储介质的存储器320、电源330、输入模块340以及通信模块350等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器310是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行电子设备的各种功能和处理数据。在一些实施例中，处理器310可包括一个或多个处理核心；在一些实施例中，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

存储器320可用于存储软件程序以及模块，处理器310通过运行存储在存储器320的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器320还可以包括存储器控制器，以提供处理器310对存储器320的访问。

电子设备还包括给各个部件供电的电源330，在一些实施例中，电源330可以通过电源管理***与处理器310逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源330还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入模块340，该输入模块340可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可包括通信模块350，在一些实施例中通信模块350可以包括无线模块，电子设备可以通过该通信模块350的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块350可以用于帮助用户收发、浏览网页和访问流式媒体等。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器310会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器320中，并由处理器310来运行存储在存储器320中的应用程序，从而实现本申请各实施例方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例提供的电子设备，可以利用输入向量，从输入检测集中确定出和输入向量最相似的目标风险向量和目标安全向量，并利用第一参数和第二参数确定输入数据的初步检测结果；在初步检测结果为安全数据时，进一步对输入数据对应的输出数据进行异常检测，以确定输入数据的最终检测结果。不仅对输入数据进行检测，同时也对输出数据进行检测，可有效检测出风险数据，提升大语言模型的安全性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种风险数据检测方法中的步骤。例如，该指令可以执行本申请实施例提供的风险数据检测方法。

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该电子设备执行上述实施例中提供的风险数据检测方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种风险数据检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种风险数据检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种风险数据检测方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种风险数据检测方法，其特征在于，所述方法包括：

若所述初步检测结果为安全数据，将所述输入数据以及所述输入向量写入缓存队列中；利用所述输入数据执行指定任务，并获取所述指定任务对应的指定输出；若所述指定输出的格式为预设格式，获取执行所述指定任务时生成的任务标识；若在所述指定输出中检测到所述任务标识，根据输出检测集、所述指定输出中的输出数据以及输出关键词，确定所述输入数据的最终检测结果，其中，所述输出关键词为从所述输出数据中提取出的关键词，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据；若所述指定输出的格式不为预设格式，或者未在所述指定输出中检测到所述任务标识，从所述输入检测集中确定一指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果。

2.根据权利要求1所述的方法，其特征在于，所述第一参数和所述第二参数通过如下公式计算得到：

；

其中，D1表示第一参数；D2表示第二参数；t_i为输入向量的第i个元素，x_i为目标风险向量的第i个元素，y_i为目标安全向量的第i个元素，n为维度数，输入向量、目标风险向量以及目标安全向量的维度数相同。

3.根据权利要求1所述的方法，其特征在于，所述输入检测集中包括所述风险向量对应的风险提示词，所述根据所述第一参数和所述第二参数，确定所述输入数据的初步检测结果，包括：

若所述第一参数大于第一阈值，确定所述输入数据的初步检测结果为风险数据；

在所述第一参数大于第一阈值的情况下，若所述第二参数大于第二阈值，将所述输入数据作为风险提示词存入所述输入检测集中；

若所述第一参数不大于第一阈值，且所述第二参数不大于第二阈值，根据所述输入数据和所述风险提示词之间的文本相似度，确定所述输入数据的初步检测结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述输入数据和所述风险提示词之间的文本相似度，确定所述输入数据的初步检测结果，包括：

从所述输入检测集中，随机选择预设数量个风险提示词；

5.根据权利要求1所述的方法，其特征在于，将所述输入数据以及所述输入向量写入缓存队列中之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述输出检测集中包括多个输出风险词，所述根据输出检测集、所述指定输出中的所述输出数据以及输出关键词，确定所述输入数据的最终检测结果，包括：

7.根据权利要求1或6所述的方法，其特征在于，所述基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果，包括：

针对所述缓存队列中的每个输入向量，根据所述缓存队列中的每个输入向量与所述指定数据，计算所述缓存队列中的每个输入向量对应的第三参数；

8.根据权利要求7所述的方法，其特征在于，所述第三参数通过如下公式计算得到：

；

9.一种风险数据检测装置，其特征在于，所述装置包括：

最终检测模块，用于若所述初步检测结果为安全数据，将所述输入数据以及所述输入向量写入缓存队列中；利用所述输入数据执行指定任务，并获取所述指定任务对应的指定输出；若所述指定输出的格式为预设格式，获取执行所述指定任务时生成的任务标识；若在所述指定输出中检测到所述任务标识，根据输出检测集、所述指定输出中的输出数据以及输出关键词，确定所述输入数据的最终检测结果，其中，所述输出关键词为从所述输出数据中提取出的关键词，所述输出数据为利用所述大语言模型对所述输入数据进行推理所得到的数据；若所述指定输出的格式不为预设格式，或者未在所述指定输出中检测到所述任务标识，从所述输入检测集中确定一指定数据，并基于所述指定数据和所述缓存队列，确定所述输入数据的最终检测结果。