CN117272123B - 一种基于大模型的敏感数据处理方法、装置及存储介质 - Google Patents

一种基于大模型的敏感数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN117272123B
CN117272123B CN202311560860.6A CN202311560860A CN117272123B CN 117272123 B CN117272123 B CN 117272123B CN 202311560860 A CN202311560860 A CN 202311560860A CN 117272123 B CN117272123 B CN 117272123B
Authority
CN
China
Prior art keywords
semantic
data
metadata
vector
comparison feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311560860.6A
Other languages
English (en)
Other versions
CN117272123A (zh
Inventor
蔡惠民
文友
谢红韬
支婷
汪榕
马环宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Big Data Research Institute Co Ltd
Original Assignee
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Big Data Research Institute Co Ltd filed Critical CETC Big Data Research Institute Co Ltd
Priority to CN202311560860.6A priority Critical patent/CN117272123B/zh
Publication of CN117272123A publication Critical patent/CN117272123A/zh
Application granted granted Critical
Publication of CN117272123B publication Critical patent/CN117272123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种基于大模型的敏感数据处理方法、装置及存储介质,包括数据采集、模型训练、语义向量映射、向量聚类、敏感等级标识、相似度计算和数据分类。该方法通过训练一个Transformer架构的孪生编码器,将原始数据映射为语义向量集合,并通过向量聚类形成多个语义簇。每个簇被识别并配置相应的敏感等级标识。随着新增数据的出现,这些数据被映射为新增语义向量,并计算与已有簇的相似度。相似度计算和统计用于计算比较特征数值,该特征数值决定了新增数据的敏感等级。这一方法结合了大型模型、向量聚类和半监督学习,以自动处理敏感数据,提高数据的安全性。

Description

一种基于大模型的敏感数据处理方法、装置及存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及一种基于大模型的敏感数据处理方法、装置及存储介质。
背景技术
在信息时代,随着数据的快速增长和广泛应用,数据安全已经成为一个关键问题。敏感数据的泄露可能导致严重的后果,包括个人隐私侵犯、金融损失和声誉损害。因此,保护敏感数据免受未经授权的访问和泄露的需求变得日益重要。
传统的数据安全技术包括加密、身份认证、权限控制等。这些技术通常用于保护数据的安全性,但它们主要用于数据存储和传输的保护,而对于数据在使用时的保护则相对有限。此外,随着数据规模的增长,以及数据的多样性,传统方法在处理非结构化数据方面存在一定的限制。
目前的数据安全技术主要集中在数据存储和传输的保护,缺乏对数据在使用时的全面保护。此外,随着大数据的快速增长,以及数据来源的多样性,敏感数据的识别和隔离变得更加困难。传统技术难以有效应对这一挑战,因此需要一种新的方法来提前防护敏感数据泄露。
发明内容
为了解决上述技术问题,本申请提供了一种基于大模型的敏感数据处理方法、装置及存储介质,下面对本申请中的技术方案进行描述:
本申请第一方面提供了一种基于大模型的敏感数据处理方法,包括:
在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本;
通过所述样本对训练一个基于Transformer架构的孪生编码器;
将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量;
计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量;
计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量;
基于所述第一数量和所述第二数量,计算比较特征数值;
根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
可选的,所述基于所述第一数量和所述第二数量,计算比较特征数值包括:
通过下述式子计算得到比较特征数值:
F=Y/X;
Fnormalized=(F−min(F))/max(F)−min(F);
其中,Fnormalized表示归一化后的比较特征数值,F表示比较特征数值,由两个数值元素Y和X进行相比得到,X表示对于给定的一个临界值对应的第一数量,该式子表示两个数值元素的比值,Y表示对于给定的一个临界值对应的第二数量。
可选的,所述根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类包括:
比较各个语义簇对应的比较特征数值的大小,确定出最大比较特征数值,并将新增元数据归入对应的语义簇中。
可选的,若最大比较特征数值的数量大于或等于2,则将所述临界值的数量置为M+1,并重新计算和比对比较特征数值,直至最大比较特征数值的数量为1。
可选的,所述在数据库中采集数据并创建样本对包括:
当数据库中的数据为结构化数据时,根据数据的元数据创建样本对;
当数据库中的数据为非结构化数据时,还包括:
基于预先构建的Prompt模板库,遍历每个Prompt模板,将非结构化数据适配每个Prompt模板,得到输入信息,所述输入信息中包含有对所述非结构化数据进行实体抽取的任务;
将所述输入信息输入至大模型中,并通过所述大模型执行实体抽取的任务,并以JSON格式返回实体抽取结果;
通过预先构建的信息解析模型对所述实体抽取结果进行解析,得到实体类型和实体。
可选的,在得到实体类型和实体之后,根据各个实体以及实体类型的频次确定出最终的实体和实体类型。
可选的,在所述根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类之后,还包括:
使用不同的脱敏方式对于不同敏感等级的数据进行处理。
可选的,通过下述式子进行相似度的计算:
C=(A⋅B)/(||A||⋅||B||);
其中,C表示相似度,A表示新增语义向量,B表示语义簇中的一个语义向量,||A||、||B||分别表示向量A、B的模。
本申请第二方面提供了一种基于大模型的敏感数据处理装置,包括:
样本对创建单元,用于在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本;
训练单元,用于通过所述样本对训练一个基于Transformer架构的孪生编码器;
映射单元,用于将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
聚类单元,用于将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
配置单元,用于根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
临界值设定单元,用于设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量;
相似度计算单元,用于计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量;
相似度计算单元还用于:计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量;
数值计算单元,用于基于所述第一数量和所述第二数量,计算比较特征数值;
归类单元,用于根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
本申请第三方面提供了一种基于大模型的敏感数据处理装置,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。
从以上技术方案可以看出,本申请具有以下优点:
1、通过使用孪生编码器和向量聚类,该方法可以高效地识别敏感数据,包括结构化和非结构化数据。这有助于快速发现和保护潜在的敏感信息。
2、该方法可以适用于不同类型的数据,包括文本和结构化数据。它可以根据数据类型和需求进行配置和调整,以满足不同领域的要求。
3、通过设定临界值和比较特征数值,该方法可以在数据库中有新增数据时实时更新敏感等级分类,确保及时响应新数据的敏感性。
4、该方法可以为新增数据进行细粒度的敏感等级归类,以确保不同敏感性级别的数据得到适当的保护和处理。
5、该方法结合了大模型、孪生编码器、向量聚类和规则配置等多种技术,以实现全面的敏感数据管理和保护,应对不同数据类型和需求。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请中提供的基于大模型的敏感数据处理方法的一个实施例流程示意图;
图2为本申请提供的方法构建样本对的一个实施例流程示意图;
图3为本申请中提供的基于大模型的敏感数据处理装置的一个实施例结构示意图;
图4为本申请中提供的基于大模型的敏感数据处理装置的另一个实施例结构示意图。
具体实施方式
下面对本申请中的实施例进行详细描述:
需要说明的是,本申请提供的方法,可以应用于终端也可以应用于***,还可以应用于服务器上,例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,本申请首先提供了一个基于大模型的敏感数据处理方法的实施例,该实施例包括:
S101、在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本;
首先,从数据库中收集数据,这些数据可以包括结构化数据和非结构化文本数据。创建样本对,其中正样本是包含敏感信息的数据,而负样本是不包含敏感信息的数据。这些样本对将用于训练孪生编码器,以使其能够识别敏感信息。
该实施例中,从数据库中获取数据,包括结构化数据和非结构化文本数据。这些数据可能包含各种信息,其中一些可能是敏感的。对数据进行标记,将其分类为正样本和负样本。正样本是包含敏感信息的数据,而负样本是不包含敏感信息的数据。这可以是手动标记,也可以使用自动化的方式进行,具体方法取决于数据类型和敏感信息的特征。
对于每个正样本,选择一个负样本,以创建样本对。还可以需要考虑一些策略,如随机选择负样本、匹配相似性等。对于非结构化文本数据,可以使用文本相似性算法来选择负样本,使其在某种程度上与正样本相似。
使用准备好的样本对来训练基于Transformer架构的孪生编码器。这个编码器将学习如何区分正样本和负样本,以便将来能够识别敏感信息。
S102、通过所述样本对训练一个基于Transformer架构的孪生编码器;
使用样本对来训练一个孪生编码器,这个编码器基于Transformer架构。孪生编码器是一种深度学习模型,可以接收输入数据,并将其映射到高维语义空间中的向量表示。
训练过程首先需要准备样本对,其中正样本和负样本已经创建和标记。每个样本对应一个正样本和一个负样本,用于训练编码器。
对于非结构化文本数据,需要将文本数据转化为向量表示。这可以通过预训练的Transformer模型(如BERT、GPT等)来实现,将文本编码成固定维度的嵌入向量。
构建基于Transformer架构的孪生编码器。这个编码器由两个相同的子模型组成,一个用于处理正样本,另一个用于处理负样本。每个子模型包括多个Transformer层。
孪生编码器的两个子模型共享相同的参数。这是为了确保它们能够学习到相似性,以便在训练期间比较正样本和负样本。
训练的目标是最小化正样本和负样本之间的差异。这可以通过构建一个损失函数来实现,损失函数将鼓励相似的正样本在编码后更接近,而将负样本推远。一种常用的损失函数是三元组损失(Triplet Loss),其中包括一个锚点样本、一个正样本和一个负样本。
训练过程通常使用小批量(mini-batch)数据进行,而不是整个数据集。在每个迭代中,随机选择一批正样本和相应的负样本,然后计算损失函数,并根据梯度下降法来更新模型参数。
重复迭代训练步骤,直到损失函数收敛或达到预定的迭代次数。
在训练完成后,可以使用独立的验证集或测试集来评估模型的性能,例如计算准确率、召回率、F1分数等。
S103、将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
从孪生编码器中选择一个部分,用作语义编码器。使用语义编码器将获取的元数据映射为语义向量,这些语义向量代表数据的语义信息。得到一组语义向量,这些向量构成了语义向量集合,用于后续的分析和处理。
在训练孪生编码器后,要从中选择一个部分作为语义编码器,然后使用语义编码器将获取的元数据映射为语义向量,最终得到一组语义向量集合。即从两个子模型中选择一个,作为语义编码器。这可以是在训练期间事先决定好的,也可以在后续使用时随机选择。
对于要映射为语义向量的元数据,需要进行与训练时相同的预处理步骤。这包括文本标记化、词嵌入等。将预处理后的元数据输入所选的语义编码器中。这个编码器会将元数据转换为语义向量。对于每个元数据,语义编码器将生成一个语义向量。将所有这些语义向量收集起来,形成一个语义向量集合。这个集合代表了所有输入数据的语义信息。
S104、将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
使用向量聚类算法,例如K-Means,对语义向量集合进行聚类分析。
这将产生多个语义簇,每个簇包含相似的语义向量。这些簇代表了基于元数据的语义群体。
该实施例中,将语义向量集合输入所选的聚类算法。算法将执行迭代过程,将语义向量分为K个不同的簇,使每个簇包含相似的语义向量。
对于K-Means等需要指定K值的算法,可以使用一些方法来确定最佳的K值,例如肘部法则(Elbow Method)或轮廓系数(Silhouette Score)。
分析聚类结果,检查每个簇包含哪些语义向量。这可以涉及到查看簇的中心向量、成员向量等。
这些簇代表了基于元数据的语义群体。可以根据具体应用需求将不同的安全等级或处理策略应用于每个语义簇中的数据。
S105、根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
该步骤中,使用预先配置的标准规范库,对每个语义簇进行识别。为每个语义簇配置相应的敏感等级标识,以指示其敏感性。
具体的,创建一个标准规范库,其中包含各种数据安全规范和敏感信息的定义。这个库可以包括敏感实体的类型、敏感数据的范围、处理策略等信息。规范库的内容应该与应用需求和数据类型相匹配。
对于每个语义簇,根据其语义特征,使用规范库中定义的规则和模式来识别其内容。这可以包括模式匹配、实体抽取、关键词识别等技术,以确定语义簇是否包含敏感信息。
为每个被识别为包含敏感信息的语义簇配置相应的敏感等级标识。这些标识可以表示不同的敏感程度,例如高、中、低等级。标识的级别应该根据规范库中的定义和应用需求来确定。
将配置的敏感等级标识信息记录在***中,以便在后续的数据处理步骤中使用。这可以是一个元数据字段、标签或其他形式的标识。
S106、设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量;
在***设计或配置过程中,预先设定M个临界值,这些临界值代表了不同的相似度阈值,可以根据数据敏感性和应用需求来确定。这些阈值可以是数值,例如0.9、0.8、0.7等。
当数据库中有新增元数据时,首先将该新增元数据通过所述语义编码器映射为新增语义向量。
S107、计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量;
该实施例中,遍历所有的语义簇,对每个语义簇中的语义向量执行以下操作。
使用合适的相似度度量计算新增语义向量与当前语义簇中的每个语义向量的相似度。
将计算得到的相似度与M个临界值逐个比较,确定它们是否小于这些临界值。可以为每个临界值维护一个计数器,初始值为0。对于每个临界值下,如果相似度小于临界值,则将相应的计数器加1。对于每个临界值,记录计数器的值,这些值将构成第一数量。
重复上述步骤,对每个新增语义向量执行相似度计算和统计操作,以获得每个临界值下的第一数量。最终,对于每个临界值,将获得一个对应的第一数量,表示小于该临界值的语义向量数量。
S108、计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量;
对于每个语义簇,计算新增语义向量与该簇中的语义向量的相似度。
统计每个语义簇中相似度小于每个临界值的语义向量数量,形成第二数量。
该步骤中,遍历所有的语义簇,对每个簇执行以下操作:
对于当前语义簇,计算新增语义向量与该簇中的每个语义向量的相似度,使用合适的相似度度量,例如余弦相似度。
将计算得到的相似度与M个临界值逐个比较,以确定它们是否小于这些临界值。为每个临界值维护一个计数器,初始值为0。
对于每个临界值下,如果相似度小于临界值,则将相应的计数器加1。
对于每个临界值,记录计数器的值,这些值将构成第二数量。
重复上述步骤,对每个语义簇执行相似度计算和统计操作,以获得每个临界值下的第二数量。
最终,对于每个语义簇,将获得一个对应的第二数量,表示小于该临界值的语义向量数量。
下面提供一个具体的相似度计算的方式:
C=(A⋅B)/(||A||⋅||B||);
其中,C表示相似度,A表示新增语义向量,B表示语义簇中的一个语义向量,||A||、||B||分别表示向量A、B的模。
S109、基于所述第一数量和所述第二数量,计算比较特征数值;
使用第一数量和第二数量计算比较特征数值,该特征数值将反映新增元数据与每个语义簇之间的相似度。
从先前的步骤中获取第一数量和第二数量,这些数量是在不同临界值下计算的,每个临界值都有一个对应的第一数量和第二数量。
对于每个临界值,计算比较特征数值。比较特征数值通常表示新增元数据与每个语义簇之间的相似度。这可以通过以下公式来计算:
F=Y/X;
其中,F表示比较特征数值,Y表示对于给定的一个临界值对应的第二数量,X表示对于给定的一个临界值对应的第一数量,该式子表示两个数值元素的比值,并定义为比较特征数值。
这个计算会得出一个比较特征数值,该值表示在给定临界值下,新增元数据与语义簇的相似程度。较高的比较特征数值表示较高的相似度,而较低的值表示较低的相似度。对每个临界值执行相似性计算,以获得每个临界值下的比较特征数值。将每个临界值下的比较特征数值保存以备后续使用。
下面对该实施例中所提及的比较特征数值进行进一步的说明:
对于每一个语义簇,计算新增语义向量与该簇中的语义向量的相似度。
统计每个语义簇中相似度小于每个临界值的语义向量数量,形成第二数量;
也就是说对于一个语义簇来说,在M个临界值中,每一个临界值都有其对应的第二数量,相应的,进一步计算比较特征数值,那么也就是说,M个临界值中,每一个临界值都有其对应的比较特征数值,基于这些比较特征数值,后续对该语义簇进行归类。
而具体的归类则有多种实现方式,例如通过确定最大比较特征数值的方式,而当最大比较特征数值有多个相同的值时,则可以有一定的调整策略,例如将M的值重置为M+1,具体的可以参阅后续的实施例。
在一个可选的实施例中,还可以对比较特征进行归一化处理,可以通过下述式子表示:
Fnormalized=(F−min(F))/max(F)−min(F);
其中,Fnormalized表示归一化后的比较特征数值,Y表示第二数量,X表示第一数量。
S110、根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
根据比较特征数值,将新增元数据归类到适当的语义簇。
对于每个语义簇,获取其对应的比较特征数值,这是在前一步中计算得到的值。
针对每个语义簇,使用其比较特征数值来确定新增元数据的敏感等级。敏感等级通常是预先定义的,并根据比较特征数值的范围来确定。
本实施例中,临界值的一种初始选择方法包括,首先计算新增元数据与所有语义簇中所有元数据的余弦距离,对所有的余弦距离作统计分析,将不同的余弦距离做范围的划分,从而获得80分位值,85分位值,90分位值,95位值,99分位值,这些分位值可作为临界值的初始参考值。遍历所有临界值,对每个语义簇的比较特征数值进行累积。最后通过比较每个语义簇的比较特征数值的大小决定新增元数据归属于哪个语义簇。
该实施例中,M优选为4或者5,每一个分位值都有其对应的敏感等级,而不同的敏感等级的数据可以进行不同的入库处理。
上述实现方式仅为本申请中的一种具体的例子,其在实际中,可以根据数据的业务类型以及数据源的不同,进行不同的调整处理。
比较特征数值最大的语义簇的安全等级标识作为新增元数据的安全等级标识。并根据安全等级标识的级别对新增元数据对应的所有数据进行脱敏或隔离。
而在确定比较特征数值时,如果该数值有多个,则调整M的数值为M+1,直至得到唯一的比较特征数值。
将新增元数据归类到适当的语义簇,这是根据相似度计算和比较特征数值确定的。这个步骤涉及将新增元数据与具有相似比较特征数值的语义簇关联起来。为每个新增元数据分配相应的敏感等级标识,这将反映其在语义簇中的敏感性。可以选择将新增元数据的敏感等级记录到数据库中,采取相应的安全措施,例如敏感数据隔离或脱敏,以保护数据的安全性。
上述实施例具有以下优点:
该方法综合利用了大模型、半监督学习、语义分析、向量聚类、规则引擎等多种技术和方法,能够应对不同类型的数据,包括结构化数据和非结构化文本数据。通过大模型和半监督学习技术,可以高效地识别敏感信息,不仅限于已知的规则和关键词,从而提高了准确性和覆盖范围。对于结构化数据中元数据的随机性增删改,方法具备一定的动态适应性,能够应对真实应用场景中元数据的动态变化。通过预先配置的标准规范库,能够对不同语义簇进行标识和配置敏感等级,实现了标准化的敏感信息管理。整个流程具有自动化处理能力,能够对新增数据进行快速的敏感信息识别和分类,从而减轻了人工干预的负担。使用向量聚类和相似度计算等技术,能够高效地对数据进行处理,尤其适用于大规模数据集。通过敏感等级标识,可以根据不同数据的敏感性采取适当的保护措施,包括隔离和脱敏,提高了数据的安全性。
方法具有一定的适应性,可以根据具体需求和不同领域的数据安全规范进行配置和调整。
对于前述实施例中,根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类,下面提供一个具体的敏感等级归类的实施例,该实施例为:通过比较各个语义簇对应的比较特征数值的大小,确定出最大比较特征数值,并将新增元数据归入对应的语义簇中。若最大比较特征数值的数量大于或等于2,则将所述临界值的数量置为M+1,并重新计算和比对比较特征数值,直至最大比较特征数值的数量为1。
本申请提供的方法可以用于对结构化数据进行处理,也可以用于对非结构化数据进行处理,当对数据库中的结构化数据进行处理时,则在构建样本对时,直接根据数据的元数据创建样本对。
当用于对非结构化数据进行处理时,则通过如下方法进行实体和实体类型的抽取:
基于预先构建的Prompt模板库,遍历每个Prompt模板,将非结构化数据适配每个Prompt模板,得到输入信息,所述输入信息中包含有对所述非结构化数据进行实体抽取的任务;
将所述输入信息输入至大模型中,并通过所述大模型执行实体抽取的任务,并以JSON格式返回实体抽取结果;
通过预先构建的信息解析模型对所述实体抽取结果进行解析,得到实体类型和实体。
参阅图2,下面对该方法的实施例进行详细描述:
S201、基于预先构建的Prompt模板库,遍历每个Prompt模板,将非结构化数据适配每个Prompt模板,得到输入信息,所述输入信息中包含有对所述非结构化数据进行实体抽取的任务;
在这一步,首先需要构建一个Prompt模板库,该库包含了多个Prompt模板,每个模板描述了一个实体抽取任务。每个模板可能包括一些示例实体类型,关键词或关键短语,以帮助大模型理解实体抽取任务。例如,一个Prompt模板可以如下所示:
"Extract organizations from the following text: {text}"
这个模板指示大模型从给定的文本中提取组织实体。{text}是一个占位符,表示要在实际应用中替换为非结构化文本数据。
对于每个Prompt模板,非结构化文本数据将适配(填充)到模板中的占位符。这将生成多个输入信息,每个信息都包含一个实体抽取任务。
S202、将所述输入信息输入至大模型中,并通过所述大模型执行实体抽取的任务,并以JSON格式返回实体抽取结果;
在这一步,将生成的输入信息输入大模型中,例如一个预训练的语言模型(如BERT或GPT-3)。大模型会执行实体抽取任务,并返回实体抽取的结果。结果以JSON格式返回,通常包括实体类型、实***置(在文本中的开始和结束位置)以及实体文本。
例如,实体抽取结果如下所示:
[
{"entity_type": "Organization", "start": 12, "end": 25, "text": "ABCCorp"},
{"entity_type": "Person", "start": 30, "end": 45, "text": "JohnSmith"}]
这个JSON表示从文本中提取了两个实体,一个是"ABC Corp",类型为组织(Organization),另一个是"John Smith",类型为个人(Person)。
S203、通过预先构建的信息解析模型对所述实体抽取结果进行解析,得到实体类型和实体;
在这一步,信息解析模型(可以是一个规则引擎或自然语言处理模型)将处理实体抽取结果,以获取实体类型和实体文本。这可以通过解析实体抽取结果中的JSON数据来完成。信息解析模型会识别每个实体的类型,并将其映射到预定义的标准实体类型,例如"组织"、"人员"等。
对于上述示例,信息解析模型可以解析JSON,识别"ABC Corp"作为组织(Organization),"John Smith"作为个人(Person)。
通过使用大模型,该实施例可以自动执行实体抽取任务,无需手动定义规则或模式。这提高了实体抽取的准确性和灵活性。这种方法适用于多种实体类型和非结构化文本数据,因为可以根据需要创建不同的Prompt模板。
随着新的实体类型或需求的出现,可以轻松扩展Prompt模板库,而不需要修改核心算法。自动实体抽取和解析过程可以在大模型的帮助下迅速执行,提高了处理非结构化文本数据的效率。信息解析模型可以进一步处理实体抽取结果,以识别实体类型,这有助于标准化和分类实体。
通过创建样本对,可以为实体建立训练数据,用于半监督学习,从而改善实体分类和敏感信息标识的准确性。这种方法允许灵活适应新的实体抽取任务和需求,而无需重新设计整个***。
更为具体的,在该实施例中,在得到实体类型和实体之后,根据各个实体以及实体类型的频次确定出最终的实体和实体类型。
首先,通过大模型执行实体抽取任务,并通过信息解析模型解析实体抽取结果,得到实体类型和实体文本。在处理大量非结构化文本数据时,实体类型和实体可能会出现多次。在半监督学习的过程中,可以累积统计每个实体类型和实体的出现频次。基于实体类型和实体的频次统计,可以筛选出最终的实体和实体类型。通常,出现频次较高的实体类型和实体将被认为是最终的实体和实体类型。
下面对本申请中提供的装置的实施例进行详细描述:
参阅图3,本申请提供了一种基于大模型的敏感数据处理装置实施例,该实施例包括:
样本对创建单元301,用于在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本;
训练单元302,用于通过所述样本对训练一个基于Transformer架构的孪生编码器;
映射单元303,用于将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
聚类单元304,用于将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
配置单元305,用于根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
临界值设定单元306,用于设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量;
相似度计算单元307,用于计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量;
相似度计算单元307还用于:计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量;
数值计算单元308,用于基于所述第一数量和所述第二数量,计算比较特征数值;
归类单元309,用于根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
可选的,数值计算单元308具体用于:
通过下述式子计算得到比较特征数值:
F=Y/X;
Fnormalized=(F−min(F))/max(F)−min(F);
其中,Fnormalized表示归一化后的比较特征数值,F表示比较特征数值,由两个数值元素Y和X进行相比得到,X表示对于给定的一个临界值对应的第一数量,该式子表示两个数值元素的比值,Y表示对于给定的一个临界值对应的第二数量。
归类单元309具体用于:
比较各个语义簇对应的比较特征数值的大小,确定出最大比较特征数值,并将新增元数据归入对应的语义簇中。
可选的,若最大比较特征数值的数量大于或等于2,则将所述临界值的数量置为M+1,并重新计算和比对比较特征数值,直至最大比较特征数值的数量为1。
可选的,样本对创建单元301具体用于:
当数据库中的数据为结构化数据时,根据数据的元数据创建样本对;
当数据库中的数据为非结构化数据时,装置还包括抽取单元311,用于:
基于预先构建的Prompt模板库,遍历每个Prompt模板,将非结构化数据适配每个Prompt模板,得到输入信息,所述输入信息中包含有对所述非结构化数据进行实体抽取的任务;
将所述输入信息输入至大模型中,并通过所述大模型执行实体抽取的任务,并以JSON格式返回实体抽取结果;
通过预先构建的信息解析模型对所述实体抽取结果进行解析,得到实体类型和实体。
可选的,在得到实体类型和实体之后,根据各个实体以及实体类型的频次确定出最终的实体和实体类型。
可选的,还包括脱敏处理单元310,用于:
使用不同的方式对于不同敏感等级的数据进行处理。
可选的,相似度计算单元307具体用于:
通过下述式子进行相似度的计算:
C=(A⋅B)/(||A||⋅||B||);
其中,C表示相似度,A表示新增语义向量,B表示语义簇中的一个语义向量,||A||、||B||分别表示向量A、B的模。
参阅图4,本申请还提供了一种基于大模型的敏感数据处理装置,包括:
处理器401、存储器402、输入输出单元403、总线404;
处理器401与存储器402、输入输出单元403以及总线404相连;
存储器402保存有程序,处理器401调用程序以执行如上任一方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (11)

1.一种基于大模型的敏感数据处理方法,其特征在于,所述方法包括:
在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本,从数据库中采集的数据包括结构化数据和非结构化文本数据;
通过所述样本对训练一个基于Transformer架构的孪生编码器;
将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量,所述新增元数据为结构化数据或者非结构化文本数据;
计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量,对于每个临界值,都获得一个对应的第一数量;
计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量,对于每个临界值,都获得一个对应的第二数量;
基于所述第一数量和所述第二数量,计算比较特征数值;
根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
2.根据权利要求1中所述的基于大模型的敏感数据处理方法,其特征在于,所述基于所述第一数量和所述第二数量,计算比较特征数值包括:
通过下述式子计算得到比较特征数值:
F=Y/X;
Fnormalized=(F−min(F))/max(F)−min(F);
其中,Fnormalized表示归一化后的比较特征数值,F表示比较特征数值,由两个数值元素Y和X进行相比得到,X表示对于给定的一个临界值对应的第一数量,该式子表示两个数值元素的比值,Y表示对于给定的一个临界值对应的第二数量。
3.根据权利要求2中所述的基于大模型的敏感数据处理方法,其特征在于,所述根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类包括:
比较各个语义簇对应的比较特征数值的大小,确定出最大比较特征数值,并将新增元数据归入对应的语义簇中。
4.根据权利要求3中所述的基于大模型的敏感数据处理方法,其特征在于,若最大比较特征数值的数量大于或等于2,则将所述临界值的数量置为M+1,并重新计算和比对比较特征数值,直至最大比较特征数值的数量为1。
5.根据权利要求1中所述的基于大模型的敏感数据处理方法,其特征在于,所述在数据库中采集数据并创建样本对包括:
当数据库中的数据为结构化数据时,根据数据的元数据创建样本对;
当数据库中的数据为非结构化数据时,所述方法还包括:
基于预先构建的Prompt模板库,遍历每个Prompt模板,将非结构化数据适配每个Prompt模板,得到输入信息,所述输入信息中包含有对所述非结构化数据进行实体抽取的任务;
将所述输入信息输入至大模型中,并通过所述大模型执行实体抽取的任务,并以JSON格式返回实体抽取结果;
通过预先构建的信息解析模型对所述实体抽取结果进行解析,得到实体类型和实体。
6.根据权利要求5中所述的基于大模型的敏感数据处理方法,其特征在于,在得到实体类型和实体之后,根据各个实体以及实体类型的频次确定出最终的实体和实体类型。
7.根据权利要求1中所述的基于大模型的敏感数据处理方法,其特征在于,在所述根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类之后,还包括:
使用不同的脱敏方式对于不同敏感等级的数据进行处理。
8.根据权利要求1中所述的基于大模型的敏感数据处理方法,其特征在于,通过下述式子进行相似度的计算:
C=(A⋅B)/(||A||⋅||B||);
其中,C表示相似度,A表示新增语义向量,B表示语义簇中的一个语义向量,||A||、||B||分别表示向量A、B的模。
9.一种基于大模型的敏感数据处理装置,其特征在于,包括:
样本对创建单元,用于在数据库中采集数据并创建样本对,所述样本对包括正样本和负样本,从数据库中采集的数据包括结构化数据和非结构化文本数据;
训练单元,用于通过所述样本对训练一个基于Transformer架构的孪生编码器;
映射单元,用于将所述孪生编码器中的一个作为语义编码器,并通过所述语义编码器将获取的元数据映射为语义向量,得到语义向量集合;
聚类单元,用于将所述语义向量集合进行向量聚类,得到多个基于元数据的语义簇;
配置单元,用于根据预先配置的标准规范库,对所有的语义簇进行识别,并配置敏感等级标识;
临界值设定单元,用于设定M个临界值,当数据库中有新增元数据时,通过所述语义编码器将新增元数据映射为新增语义向量,所述新增元数据为结构化数据或者非结构化文本数据;
相似度计算单元,用于计算所述新增语义向量与所有语义簇中的语义向量的相似度,并统计出分别小于M个临界值的语义向量的第一数量,对于每个临界值,都获得一个对应的第一数量;
相似度计算单元还用于:计算所述新增语义向量与各个语义簇中的语义向量的相似度,并统计出各个语义簇中,相似度分别小于M个临界值的语义向量的第二数量,对于每个临界值,都获得一个对应的第二数量;
数值计算单元,用于基于所述第一数量和所述第二数量,计算比较特征数值;
归类单元,用于根据各个语义簇对应的比较特征数值将所述新增元数据进行敏感等级归类。
10.一种基于大模型的敏感数据处理装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至8中任一项所述方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至8中任一项所述方法。
CN202311560860.6A 2023-11-22 2023-11-22 一种基于大模型的敏感数据处理方法、装置及存储介质 Active CN117272123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311560860.6A CN117272123B (zh) 2023-11-22 2023-11-22 一种基于大模型的敏感数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311560860.6A CN117272123B (zh) 2023-11-22 2023-11-22 一种基于大模型的敏感数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117272123A CN117272123A (zh) 2023-12-22
CN117272123B true CN117272123B (zh) 2024-02-27

Family

ID=89218208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311560860.6A Active CN117272123B (zh) 2023-11-22 2023-11-22 一种基于大模型的敏感数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117272123B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780447A (zh) * 2021-09-16 2021-12-10 郑州云智信安安全技术有限公司 基于流量分析的敏感数据发现识别方法及***
CN114186058A (zh) * 2021-08-18 2022-03-15 中电科大数据研究院有限公司 一种政策公文标题相似度计算方法
CN114358020A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 疾病部位识别方法、装置、电子设备及存储介质
CN114528844A (zh) * 2022-01-14 2022-05-24 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
DE102022202017A1 (de) * 2021-03-01 2022-09-01 Robert Bosch Gesellschaft mit beschränkter Haftung Konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik
CN115270810A (zh) * 2022-07-06 2022-11-01 四川长虹电器股份有限公司 一种基于句子相似度的意图识别装置和方法
CN115270752A (zh) * 2022-07-27 2022-11-01 北京邮电大学 一种基于多层次对比学习的模板句评估方法
CN116911289A (zh) * 2023-09-13 2023-10-20 中电科大数据研究院有限公司 政务领域大模型可信文本生成方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022202017A1 (de) * 2021-03-01 2022-09-01 Robert Bosch Gesellschaft mit beschränkter Haftung Konzeptbasiertes kontradiktorisches Erzeugungsverfahren mit steuerbarer und diverser Semantik
CN114186058A (zh) * 2021-08-18 2022-03-15 中电科大数据研究院有限公司 一种政策公文标题相似度计算方法
CN113780447A (zh) * 2021-09-16 2021-12-10 郑州云智信安安全技术有限公司 基于流量分析的敏感数据发现识别方法及***
CN114358020A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 疾病部位识别方法、装置、电子设备及存储介质
CN114528844A (zh) * 2022-01-14 2022-05-24 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
CN115270810A (zh) * 2022-07-06 2022-11-01 四川长虹电器股份有限公司 一种基于句子相似度的意图识别装置和方法
CN115270752A (zh) * 2022-07-27 2022-11-01 北京邮电大学 一种基于多层次对比学习的模板句评估方法
CN116911289A (zh) * 2023-09-13 2023-10-20 中电科大数据研究院有限公司 政务领域大模型可信文本生成方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Siamese transformer network for hyperspectral image target detection;Weiqiang Rao ET AL;《IEEE transactions on Geoscience and Remote Sensing》;第60卷;1-17 *
基于相似度融合的中文文本相似性度量方法研究;温雨等;《信息技术与信息化》(第10期);36-39 *

Also Published As

Publication number Publication date
CN117272123A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110083623B (zh) 一种业务规则生成方法及装置
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN111260220A (zh) 群控设备识别方法、装置、电子设备和存储介质
CN113315851A (zh) 域名检测方法、装置及存储介质
CN115186650A (zh) 数据检测方法及相关装置
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
CN113986660A (zh) ***调整策略的匹配方法、装置、设备及存储介质
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN110990834B (zh) 一种android恶意软件的静态检测方法、***及介质
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
CN115905885A (zh) 数据识别方法、设备、存储介质及程序产品
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN115422000A (zh) 异常日志处理方法及装置
CN114330369A (zh) 基于智能语音分析的地产营销管理方法、装置及设备
CN111859896B (zh) 配方文档检测方法、装置、计算机可读介质及电子设备
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
Liu et al. [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms
CN114860673B (zh) 基于动静结合的日志特征识别方法及装置
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant