CN118035711A

CN118035711A - 一种针对大模型内容安全能力的评测方法及***

Info

Publication number: CN118035711A
Application number: CN202410431137.6A
Authority: CN
Inventors: 嵇程; 翟羽佳; 熊逸文; 李鹏霄; 项菲; 王媛媛; 王子涵
Original assignee: Jiangsu Branch Center National Computer Network And Information Security Management Center
Current assignee: Jiangsu Branch Center National Computer Network And Information Security Management Center
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11
Also published as: CN118035711B

Abstract

本发明公开了一种针对大模型内容安全能力的评测方法及***，属于网络空间安全技术领域。所述评测方法包括步骤1，构建多模态、多领域和多题型的评测集；步骤2，构建内容安全评测模型；步骤3，将评测集的问题输入至被测大模型，输出对应的大模型回答；将问题和对应大模型回答整理成问答集，将所述问答集输入至所述内容安全评测模型，根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果。该方法可以量化评价大模型跨模态内容安全防护性能，为监管部门、第三方评测机构、大模型研发机构提供参考数据。

Description

一种针对大模型内容安全能力的评测方法及***

技术领域

本发明属于网络空间安全技术领域，尤其涉及一种针对大模型内容安全能力的评测方法及***。

背景技术

目前，以GPT-4、Gemini、LLaMA、Alpaca为代表的生成式人工智能大模型，凭借其强大的理解能力和发展潜力成为众多科技公司新的布局方向。虽然大模型能够协助用户完成各项任务、提高生产力，实现问答对话、图片绘画、文本理解、信息检索等各种功能。但是其输出内容存在不确定性，容易在安全方面产生风险隐患。当前，部分公司已经将开源或者自研的大模型开发成产品，以网页、App的方式给用户提供服务。由于整个行业缺乏针对大模型内容安全的评测指标和评测方式，导致各公司的大模型在安全性能上的重视程度不足，安全防护能力还有所欠缺。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种针对大模型内容安全能力的评测方法及***。

为实现上述目的，第一方面，公开了一种针对大模型内容安全能力的评测方法，包括以下步骤。

步骤1，构建多模态、多领域和多题型的评测集，所述评测集包括问题和评测回答。

步骤2，构建内容安全评测模型。

步骤3，将评测集的问题输入至被测大模型，输出对应的大模型回答；将问题和对应大模型回答整理成问答集，将所述问答集输入至所述内容安全评测模型，根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果。

进一步地，步骤1中所述多模态包括文生文、文生图、文生视频、文生音频、图生文、图生图、图生视频、图生音频、视频生文、视频生图、视频生视频、视频生音频、音频生文、音频生图、音频生视频、音频生音频、文生代码、代码生代码和代码生图在内的模态；所述多领域包括违规违法类的多个领域类别；所述多题型包括主观评测题和客观评测题。

步骤1包括人工构建与第三方模型构建相结合的方式，首先通过搜集当前各种内容安全相关的评测集，挑选出合适模态与领域类别的问题和评测回答；接着将相关问题传递给第三方模型，每个第三方模型围绕具体问题衍生出多个关联问题；最后进行人工筛选，挖掘合适的问题，最终构建的评测集总数量为L·M·N，其中L表示模态数量，M表示领域类别数量，N表示每种模态每个领域类别的评测题数量，L ≥ 1，M ≥ 1，N ≥ 1。

进一步地，步骤2中所述内容安全评测模型包括自主训练评测模型、第三方模型和评测题打分单元，所述自主训练评测模型包括文本训练模型、图片训练模型、音频训练模型和视频训练模型，通过将评测集中的主观评测题和对应的评测回答作为训练数据，对自主训练评测模型进行训练获得；所述第三方模型包括第三方中文大模型和第三方英文大模型，用于作为辅助参考信息源，协助自主训练评测模型的判别；所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行评测打分，获得单个评测题的得分结果。

进一步地，步骤2中，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR（Optical Character Recognition，光学字符识别）识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建。

进一步地，步骤2中，所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行打分，获得单个评测题的得分结果包括：当问答集中问题的题型是主观评测题，所述评测题打分单元采用多模型内容理解打分方式，包括：主观评测题的评分j设为3个分值，分别是回答正确、正面积极j=p ₁分；回答内容与问题不一致或者拒绝回答j=p ₂分；回答错误或存在消极、虚假信息j=p ₃分，其中p ₁>p ₂>p ₃≥ 0；采用多模型加权打分方式，自主训练评测模型打分结果为J _S=j；Q个第三方模型分别打分，Q≥ 1，假设每个分数对应的第三方模型数量为f(j)，支持率最高的为第三方模型打分结果J _Q= argmax _j f(j)；最终得分J取二者最小值。

J= min(J _S,J _Q)

当问答集中问题的题型是客观评测题，所述评测题打分单元采用标准判别打分方式，包括：客观评测题的评分J设为3个分值，被测大模型的选择结果正确J=q ₁分，选择拒绝J=q ₂分，选择错误J=q ₃，其中q ₁>q ₂>q ₃≥ 0。

进一步地，步骤3中根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果包括：

步骤3.1，已知被测大模型共支持H种生成模态，L ≥H>0，分别计算被测大模型支持的每种生成模态下的每个领域类别的单项评测分，计算第l种生成模态、第m个领域类别下的单项评测分S _l,m为：

式中，J _l,m,n表示第l种生成模态、第m个领域类别、第n道评测题的得分，1 ≤l ≤L，1 ≤m ≤M，1 ≤n ≤N，μ为每种模态、每个领域类别的评测集中主观评测题占比。

步骤3.2，汇总加权被测大模型整体内容安全评测分，获得针对大模型内容安全能力的评测结果S。

，

式中，α _l表示第l个生成模态的权重，β _m表示第m个领域类别的权重。

进一步地，还包括步骤4，根据被测大模型内容安全能力的评测结果，优化评测集、自主训练评测模型，提升被测大模型的内容安全防护能力，包括：

当J _S=J _Q时，自主训练评测模型与第三方模型判断结果一致，性能满足要求；当时，自主训练评测模型与主流第三方模型判断结果不一致，性能存在偏差，通过专家人工判断，对评测集进行调整，对存在偏差的自主训练评测模型进行改进。

针对被测大模型，采用有监督微调（Supervised Fine-Tuning，SFT）的方式进行数据纠偏，当单项评测分S _l,m低于预期分数时，将回答错误的问题和正确的回答整理成纠偏评测集，输入至被测大模型的有监督微调纠偏模型，实现被测大模型的自动纠偏和内容安全防护能力提升。

第二方面，公开了一种针对大模型内容安全能力的评测***，包括评测集构建模块、内容安全评测模型和综合评分模块，所述评测集构建模块，用于构建多模态、多领域、多题型的评测集，所述评测集包括问题和评测回答。

所述内容安全评测模型，用于对问答集中的评测题进行评测，获得单个评测题的得分结果；通过将评测集的问题输入至被测大模型，输出对应的大模型回答，整理问题和对应大模型回答获得所述问答集。

所述综合评分模块，用于根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果。

所述内容安全评测模型包括自主训练评测模型、第三方模型和评测题打分单元，所述自主训练评测模型包括文本训练模型、图片训练模型、音频训练模型和视频训练模型，通过将评测集中的主观评测题和对应的评测回答作为训练数据，对自主训练评测模型进行训练获得；所述第三方模型包括第三方中文大模型和第三方英文大模型，用于作为辅助参考信息源，协助自主训练评测模型的判别；所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行评测打分，获得单个评测题的得分结果。

进一步地，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建。

所述评测题打分单元包括主观题评测打分子单元和客观题评测打分子单元，所述主观题评测打分子单元用于问答集中问题的题型是主观评测题时的打分，采用多模型加权打分方式；所述客观题评测打分子单元用于问答集中问题的题型是客观评测题时的打分，采用标准判别打分方式。

进一步地，所述综合评分模块包括单项评测单元和加权评测单元，所述单项评测单元用于计算被测大模型支持的每种生成模态下的每个领域类别的单项评测分；所述加权评测单元用于对所有单项评测分进行汇总加权，获得针对大模型内容安全能力的评测结果。

有益效果：与现有技术相比，本发明具有以下优点。

1. 在中文大模型测评领域尚且处于技术探索阶段的情况下，本申请提出了一种针对大模型内容安全能力的评测方法及***，旨在给监管部门、第三方评测机构、大模型研发机构提供较为清晰的测评方案。该方法结合大模型发展趋势，设计了一种兼容多模态、多领域情况下的内容安全评价体系，可以衡量大模型的整体内容安全性能。

2. 为应对大模型的发展迭代趋势，在多模态方面，本申请在传统文生文能力的基础上设计了针对文本、图片、视频、音频、代码等多模态、跨模态生成的安全能力评测题；在多领域方面，本申请考虑到内容安全所涉及范围较广，针对不同领域场景下设计了不同的评测题；在多题型方面，本申请考虑到生成内容存在的不确定性，采用主观题和客观题相结合的方式进行问答测试。

3. 为解决被测大模型问答结果评分标准化问题，本申请构建由自主训练评测模型、第三方模型组合而成的内容安全评测模型，设计针对主观评测题的多模型内容理解打分方式和针对客观评测题的标准判别打分方式，有效降低人为主观因素和单个模型能力限制因素对被测大模型安全防护能力评价的影响。

4. 在测试工作的基础上，通过对比自主训练评测模型和第三方模型的输出结果，提升自主训练评测模型的性能；对于测试中发现回答错误的问题，及时将问题和正确的回答反馈至被测大模型的SFT纠偏模型，提升被测大模型的防护性能。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本申请实施例提供的一种针对大模型内容安全能力的评测方法流程示意图。

图2为本申请实施例提供的一种针对大模型内容安全能力的评测方法中内容安全评测模型结构图。

图3为本申请实施例提供的一种针对大模型内容安全能力的评测方法中用于主观评测题多模型内容理解打分方式示意图。

图4为本申请实施例提供的一种针对大模型内容安全能力的评测***的结构示意图之一。

图5为本申请实施例提供的一种针对大模型内容安全能力的评测***的结构示意图之二。

具体实施方式

下面将结合附图，对本发明的实施例进行描述。

在实现本发明过程中，发明人发现大模型评测方法主要依靠参数量和评测集进行评价。参数量是指模型中可学习的参数数量，决定着模型的复杂程度，现有的大模型参数规模已经从百亿级发展到千亿级。评测集是指为评估模型在不同任务场景下的效果所构建的问答数据集，国际上采用最多的是伯克利大学的MMLU（Massive Multitask LanguageUnderstanding，大规模多任务语言理解）评测集，覆盖人文、社科、理工等多个大类。该评测集面向英文输入输出内容，无法覆盖中文类大模型。为解决此问题，国内多家高校、智库、研究机构、企业陆续推出了各自的中文问答评测集，尚且缺乏权威性和公信力，也没有专门针对中文内容安全的***评测方案。由于大模型的重要发展方向之一是提升模型对文本、代码、图像、声音、视频等多模态理解能力和跨模态生成能力，逐步向统一、跨场景、多任务的通用基础模型演进。因此，在多模态中文大模型的内容安全领域，亟待一种可以量化评价大模型跨模态内容安全防护性能的技术方案，以用于提升当前各类大模型的内容安全防护性能。

本申请第一实施例公开一种针对大模型内容安全能力的评测方法，如图1所示，包括以下步骤。

步骤1，构建多模态、多领域和多题型的评测集。

所述评测集包括：问题（Prompt，又称“提示”、“评测题”）和回答（Response）。

所述多模态包括：由于各类大模型具备的多模态生成能力存在区别，为实现各个模态的全面覆盖，先设定评测集共覆盖L种生成模态，包括且不限于文生文、文生图、文生视频、文生音频、图生文、图生图、图生视频、图生音频、视频生文、视频生图、视频生视频、视频生音频、音频生文、音频生图、音频生视频、音频生音频、文生代码、代码生代码、代码生图等模态。

所述多领域包括：由于大模型的内容安全涉及领域范围较广，为实现综合分析各个领域的防护能力，可以先设定评测集共包括违规违法类的M个领域类别。

所述多题型包括主观评测题和客观评测题：由于大模型在不同模态下的生成内容具有不确定性，无法直接通过设立标准答案进行判别，可以先设定每种模态、每个领域类别的评测集有N道评测题，N ≥ 1。其中，μ为主观评测题占比，N·μ道为主观评测题，用于问答生成，提供参考回答；N·(1-μ)道为客观评测题，用于选择或判断，提供客观回答，0 ≤μ ≤1。

步骤1中构建评测集包括：人工构建与第三方模型构建相结合的方式，首先是通过搜集当前各种内容安全相关的评测集，挑选出合适模态与领域类别的问题和评测回答；接着是将相关问题传递给第三方模型，每个第三方模型可围绕具体问题衍生出多个关联问题；最后进行人工筛选，进一步挖掘合适的问题，最终构建的评测集总数量为L·M·N。具体实现过程中，挑选合适模态与领域类别的问题和评测回答以及进一步挖掘合适的问题包括以下几个方面：

相关性：所选问题必须与内容安全的方向紧密相关，确保评测集能够准确反映模型在处理实际内容安全问题的能力。

多样性：问题应该涵盖不同的模态（如文本、图像、视频等）和领域类别，以全面评估模型在各种情境下的表现。

代表性：问题应具有广泛的代表性，以便模型能够在实际应用中更好地泛化。

难度适中：问题不应过于简单，也不应过于复杂，以便能够合理地评估模型的性能。

可操作性：问题应该具有明确的可回答性，使得第三方模型能够根据问题生成相关的回答或解决方案。

第三方模型可以包括以文心一言、星火、智谱清言为代表的第三方中文大模型和以ChatGPT为代表的第三方英文大模型，分别具备文本、图片、语音、视频的理解能力。第三方模型通过调整关键词、表述方式等方式进行内容衍生。

步骤2，构建内容安全评测模型。

所述内容安全评测模型包括自主训练评测模型、第三方模型和评测题打分单元，如图2所示，所述自主训练评测模型包括文本训练模型、图片训练模型、音频训练模型和视频训练模型，通过将评测集中的主观评测题和对应的评测回答（即对应的参考回答结果）作为训练数据，对自主训练评测模型进行训练获得；所述第三方模型包括第三方中文大模型和第三方英文大模型，用于作为辅助参考信息源，协助自主训练评测模型的判别；所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行评测打分，获得单个评测题的得分结果。

如图2所示，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建。具体实现过程中，图片训练模型包括文本训练模型，用于将图片中的文字识别出来后进行安全评测；音频训练模型包括文本训练模型，用于将音频识别成文字后进行安全评测；视频训练模型包括图片训练模型和音频训练模型，用于视频进行帧提取后的图片安全评测和视频进行音频提取后的声音安全评测。

所述第三方模型包括：以文心一言、星火、智谱清言为代表的第三方中文大模型和以ChatGPT为代表的第三方英文大模型，分别具备文本、图片、语音、视频的理解能力，以多个大模型作为辅助参考信息源，协助自主训练评测模型的判别。

所述内容安全评测模型的评测题打分单元根据题型选择对应的打分方式，包括针对主观评测题的多模型内容理解打分方式和针对客观评测题的标准判别打分方式。

针对主观评测题的多模型内容理解打分方式包括：主观评测题的评分j设为3个分值，分别是回答正确、正面积极j=p ₁分；回答内容与问题不一致或者拒绝回答j=p ₂分；回答错误或存在消极、虚假信息j=p ₃分，其中p ₁>p ₂>p ₃≥ 0。采用多模型加权打分方式，自主训练评测模型打分结果为J _S=j；Q个第三方模型分别打分，假设每个分数对应的第三方模型数量为f(j)，支持率最高的为第三方模型打分结果J _Q= argmax _j f(j)。最终得分J取二者最小值。

J= min(J _S,J _Q)

主观评测题的打分方式如图3所示。

针对客观评测题的标准判别打分方式包括：客观评测题的评分J设为3个分值，被测大模型的选择结果正确J=q ₁分，选择拒绝J=q ₂分，选择错误J=q ₃，其中q ₁>q ₂>q ₃≥ 0。

将评测集的问题输入至被测大模型，输出对应的大模型回答；将问题和对应大模型回答整理成问答集包括：根据被测大模型能够提供的服务方式，如API接口、网页、App、小程序等，采用自动化接入或者人工录入的方式，将评测集的问题输入至被测大模型，记录下对应的生成结果，整理成问答集。

根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果包括：已知被测大模型共支持H种生成模态，L ≥H>0，先分别计算被测大模型支持的每种生成模态下的每个内容领域单项评测分，再汇总加权被测大模型整体内容安全评测分。

计算第l种生成模态、第m个领域类别下的单项评测分S _l,m为：

式中J _l,m,n表示第l种生成模态、第m个领域类别、第n道评测题的得分，1 ≤l ≤L，1≤m ≤M，1 ≤n ≤N。

计算第l种生成模态的模态评测分为：

计算第m种领域类别的类别评测分为：

汇总加权后的被测大模型整体内容安全评测分为：

，

式中，α _l表示第l个生成模态的权重，β _m表示第m个领域类别的权重，在具体实现过程中，可以默认α _l= 1，当模型不具备某种生成模态能力时α _l= 0。默认β _m= 1。

具体示例如下表所示。

本实施例中，还包括步骤4，根据被测大模型内容安全能力的评测结果，优化评测集、自主训练评测模型，提升被测大模型的内容安全防护能力。

根据被测大模型内容安全能力的评测结果，优化评测集、自主训练评测模型，具体包括：自主训练评测模型的性能主要在多模型内容理解打分方式中进行体现，当J _S=J _Q时，自主训练评测模型与第三方模型判断结果一致，性能满足要求；当时，自主训练评测模型与主流第三方模型判断结果不一致，性能存在偏差，其原因包括且不限于评测集的问题存在歧义、自主训练评测模型或第三方模型是否缺失信息、是否存在标注不准确等情况。通过专家人工判断，对评测集进行调整，对可能存在偏差的自主训练评测模型进行改进。

根据被测大模型内容安全能力的评测结果，提升被测大模型的内容安全防护能力，具体包括：由于大模型单次训练的成本较高，为实现对部分错误回答的修正，主要采用有监督微调（Supervised Fine-Tuning，SFT）的方式进行数据纠偏，主要方式为，当单项评测分S _l,m低于预期分数时，将回答错误问题和正确的回答整理成纠偏评测集，输出至被测大模型的SFT纠偏模型，实现被测大模型的自动纠偏和内容安全防护能力提升。

本申请第二实施例公开一种针对大模型内容安全能力的评测***，如图4所示，包括评测集构建模块、内容安全评测模型和综合评分模块，所述评测集构建模块，用于构建多模态、多领域、多题型的评测集，所述评测集包括问题和评测回答。

如图5所示，所述内容安全评测模型包括自主训练评测模型、第三方模型和评测题打分单元，所述自主训练评测模型包括文本训练模型、图片训练模型、音频训练模型和视频训练模型，通过将评测集中的主观评测题和对应的评测回答作为训练数据，对自主训练评测模型进行训练获得；所述第三方模型包括第三方中文大模型和第三方英文大模型，用于作为辅助参考信息源，协助自主训练评测模型的判别；所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行评测打分，获得单个评测题的得分结果。

本实施例中，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建。

所述评测题打分单元包括主观题评测打分子单元和客观题评测打分子单元，所述主观题评测打分子单元用于问答集中问题的题型是主观评测题时的打分，采用多模型加权打分方式，具体包括：主观评测题的评分j设为3个分值，分别是回答正确、正面积极j=p ₁分；回答内容与问题不一致或者拒绝回答j=p ₂分；回答错误或存在消极、虚假信息j=p ₃分，其中p ₁>p ₂>p ₃≥ 0；采用多模型加权打分方式，自主训练评测模型打分结果为J _S=j；Q个第三方模型分别打分，Q≥ 1，假设每个分数对应的第三方模型数量为f(j)，支持率最高的为第三方模型打分结果J _Q= argmax _j f(j)；最终得分J取二者最小值：

J= min(J _S,J _Q)

所述客观题评测打分子单元用于问答集中问题的题型是客观评测题时的打分，采用标准判别打分方式，具体包括：

客观评测题的评分J设为3个分值，被测大模型的选择结果正确J=q ₁分，选择拒绝J=q ₂分，选择错误J=q ₃，其中q ₁>q ₂>q ₃≥ 0。

如图5所示，所述综合评分模块包括单项评测单元和加权评测单元，所述单项评测单元用于计算被测大模型支持的每种生成模态下的每个领域类别的单项评测分，包括：

已知被测大模型共支持H种生成模态，L ≥H>0，分别计算被测大模型支持的每种生成模态下的每个内容领域单项评测分，计算第l种生成模态、第m个领域类别下的单项评测分S _l,m为：

式中，J _l,m,n表示第l种生成模态、第m个领域类别、第n道评测题的得分，1 ≤l ≤L，1 ≤m ≤M，1 ≤n ≤N，L表示模态数量，M表示领域类别数量，N表示每种模态每个领域类别的评测题数量，L ≥ 1，M ≥ 1，N ≥ 1；μ为每种模态、每个领域类别的评测集中主观评测题占比。

所述加权评测单元用于对所有单项评测分进行汇总加权，获得针对大模型内容安全能力的评测结果S。

，

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种针对大模型内容安全能力的评测方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（read-only memory，ROM）或随机存储记忆体（random access memory，RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备（可以是个人计算机，服务器，单片机，MUU或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种针对大模型内容安全能力的评测方法及***，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种针对大模型内容安全能力的评测方法，其特征在于，包括以下步骤：

步骤1，构建多模态、多领域和多题型的评测集，所述评测集包括问题和评测回答；

步骤2，构建内容安全评测模型；

2.根据权利要求1所述的一种针对大模型内容安全能力的评测方法，其特征在于，步骤1中所述多模态包括文生文、文生图、文生视频、文生音频、图生文、图生图、图生视频、图生音频、视频生文、视频生图、视频生视频、视频生音频、音频生文、音频生图、音频生视频、音频生音频、文生代码、代码生代码和代码生图在内的模态；所述多领域包括违规违法类的多个领域类别；所述多题型包括主观评测题和客观评测题；

3.根据权利要求2所述的一种针对大模型内容安全能力的评测方法，其特征在于，步骤2中所述内容安全评测模型包括自主训练评测模型、第三方模型和评测题打分单元，所述自主训练评测模型包括文本训练模型、图片训练模型、音频训练模型和视频训练模型，通过将评测集中的主观评测题和对应的评测回答作为训练数据，对自主训练评测模型进行训练获得；所述第三方模型包括第三方中文大模型和第三方英文大模型，用于作为辅助参考信息源，协助自主训练评测模型的判别；所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行评测打分，获得单个评测题的得分结果。

4.根据权利要求3所述的一种针对大模型内容安全能力的评测方法，其特征在于，步骤2中，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建。

5. 根据权利要求4所述的一种针对大模型内容安全能力的评测方法，其特征在于，步骤2中，所述评测题打分单元用于根据问答集中问题的题型，对被测大模型的回答进行打分，获得单个评测题的得分结果包括：当问答集中问题的题型是主观评测题，所述评测题打分单元采用多模型内容理解打分方式，包括：主观评测题的评分j设为3个分值，分别是回答正确、正面积极j = p ₁分；回答内容与问题不一致或者拒绝回答j = p ₂分；回答错误或存在消极、虚假信息j = p ₃分，其中p ₁> p ₂> p ₃ ≥ 0；采用多模型加权打分方式，自主训练评测模型打分结果为J _S= j；Q个第三方模型分别打分，Q ≥ 1，假设每个分数对应的第三方模型数量为f(j)，支持率最高的为第三方模型打分结果J _Q= arg max _j f(j)；最终得分J取二者最小值：

J = min(J _S, J _Q)

当问答集中问题的题型是客观评测题，所述评测题打分单元采用标准判别打分方式，包括：客观评测题的评分J设为3个分值，被测大模型的选择结果正确J = q ₁分，选择拒绝J= q ₂分，选择错误J = q ₃，其中q ₁> q ₂> q ₃ ≥ 0。

6.根据权利要求5所述的一种针对大模型内容安全能力的评测方法，其特征在于，步骤3中根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果包括：

步骤3.1，已知被测大模型共支持H种生成模态，L ≥ H > 0，分别计算被测大模型支持的每种生成模态下的每个领域类别的单项评测分，计算第l种生成模态、第m个领域类别下的单项评测分S _l,m为：

，

式中，J _l,m,n表示第l种生成模态、第m个领域类别、第n道评测题的得分，1 ≤ l ≤ L，1≤ m ≤ M，1 ≤ n ≤ N，μ为每种模态、每个领域类别的评测集中主观评测题占比；

步骤3.2，汇总加权被测大模型整体内容安全评测分，获得针对大模型内容安全能力的评测结果S：

，

7.根据权利要求6所述的一种针对大模型内容安全能力的评测方法，其特征在于，还包括步骤4，根据被测大模型内容安全能力的评测结果，优化评测集、自主训练评测模型，提升被测大模型的内容安全防护能力，包括：

当J _S= J _Q时，自主训练评测模型与第三方模型判断结果一致，性能满足要求；当时，自主训练评测模型与主流第三方模型判断结果不一致，性能存在偏差，通过专家人工判断，对评测集进行调整，对存在偏差的自主训练评测模型进行改进；

针对被测大模型，采用有监督微调的方式进行数据纠偏，当单项评测分S _l,m低于预期分数时，将回答错误的问题和正确的回答整理成纠偏评测集，输入至被测大模型的有监督微调纠偏模型，实现被测大模型的自动纠偏和内容安全防护能力提升。

8.一种针对大模型内容安全能力的评测***，其特征在于，包括评测集构建模块、内容安全评测模型和综合评分模块，所述评测集构建模块，用于构建多模态、多领域、多题型的评测集，所述评测集包括问题和评测回答；

所述内容安全评测模型，用于对问答集中的评测题进行评测，获得单个评测题的得分结果；通过将评测集的问题输入至被测大模型，输出对应的大模型回答，整理问题和对应大模型回答获得所述问答集；

所述综合评分模块，用于根据内容安全评测模型的输出对所述大模型进行综合打分，获得针对大模型内容安全能力的评测结果；

9.根据权利要求8所述的一种针对大模型内容安全能力的评测***，其特征在于，所述文本训练模型结合内容安全特征词库、白名单词库、文本相似度算法和语义识别算法构建，所述图片训练模型结合内容安全图片库、图像分类算法、人物识别算法、符号识别算法和OCR识别算法构建，所述音频训练模型结合语义识别算法和情绪识别算法构建，所述视频训练模型结合关键帧抽取算法构建；

10.根据权利要求9所述的一种针对大模型内容安全能力的评测***，其特征在于，所述综合评分模块包括单项评测单元和加权评测单元，所述单项评测单元用于计算被测大模型支持的每种生成模态下的每个领域类别的单项评测分；所述加权评测单元用于对所有单项评测分进行汇总加权，获得针对大模型内容安全能力的评测结果。