CN116127400A - 基于异构计算的敏感数据识别***、方法及存储介质 - Google Patents

基于异构计算的敏感数据识别***、方法及存储介质 Download PDF

Info

Publication number
CN116127400A
CN116127400A CN202310418681.2A CN202310418681A CN116127400A CN 116127400 A CN116127400 A CN 116127400A CN 202310418681 A CN202310418681 A CN 202310418681A CN 116127400 A CN116127400 A CN 116127400A
Authority
CN
China
Prior art keywords
service
data
marked
chip
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310418681.2A
Other languages
English (en)
Other versions
CN116127400B (zh
Inventor
姚启桂
张涛
石聪聪
张小建
费稼轩
黄伟聪
罗晨
何阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202310418681.2A priority Critical patent/CN116127400B/zh
Publication of CN116127400A publication Critical patent/CN116127400A/zh
Application granted granted Critical
Publication of CN116127400B publication Critical patent/CN116127400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/167Interprocessor communication using a common memory, e.g. mailbox
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于异构计算的敏感数据识别***、方法及存储介质,该***包括依次连接的CPU芯片、AI芯片和FPGA芯片;CPU芯片用于获取待标注业务数据,AI芯片用于根据所述待标注业务数据的业务特征判断所述业务数据所属的业务簇,并根据所述业务数据所属的业务簇对所述待标注业务数据进行标注;FPGA芯片用于通过并行处理的方式对标注后的业务数据进行敏感数据的识别。本发明实施例通过构建基于CPU+AI+FPGA的异构计算架构,利用AI芯片高效的数据处理能力对业务数据进行标注,并通过FPGA芯片对业务数据进行并行处理,提高了识别电力***业务数据中的敏感数据的效率,突破传统软件识别性能瓶颈。

Description

基于异构计算的敏感数据识别***、方法及存储介质
技术领域
本发明涉及电力数据监测技术领域,尤其涉及一种基于异构计算的敏感数据识别***、方法及存储介质。
背景技术
电力数据作为生产要素,是推进能源数字化转型、构建新型电力***的关键资源。随着数字化的发展,电力数据共享交互日益频繁。电力对外交互业务范围众多,涵盖营销、财务等部门,与政府、银行、保险、互联网公司、运营商等单位进行数据交互,交互业务复杂、接口数量多、交互数据涉及广,部分涉及个人隐私数据。为了加强对外交互数据泄露监测,降低电力数据在对外开放过程中发生接口异常访问的风险,需要借助CPU的计算能力对外发数据的敏感数据内容进行识别。
虽然处理器提供的计算能力越来越强,但是由于处理器中集成电路已达到纳米级,处理器的频率提升越来越困难,单核计算能力的提升空间已经十分有限。目前市场上,在电力***的敏感数据处理上采用单路处理的方式,识别效率较低。
发明内容
有鉴于此,本发明实施例提供了一种基于异构计算的敏感数据识别***、方法及存储介质,以解决电力***的敏感数据识别效率低的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供了一种基于异构计算的敏感数据识别***,包括依次连接的CPU芯片、AI芯片和FPGA芯片;所述CPU芯片用于获取待标注业务数据,并将所述待标注业务数据发送至所述AI芯片;所述AI芯片用于根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,并根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注,得到标注后的业务数据;所述FPGA芯片用于通过并行处理的方式对标注后的业务数据进行敏感数据的识别。
可选地,所述CPU芯片包括网口和数据采集与分发模块,所述网口和所述数据采集与分发模块连接,所述数据采集与分发模块通过高速总线和所述AI芯片连接;所述网口用于获取网络流量数据;所述数据采集与分发模块用于对所述网络流量数据进行筛选得到待标注业务数据,并将所述待标注业务数据通过高速总线发送至所述AI芯片。
可选地,所述CPU芯片包括模型策略下发模块,用于将聚类模型及识别策略分别下发至所述AI芯片和所述FPGA芯片;所述AI芯片包括:数据特征分类模块,用于基于聚类模型获取和业务类别对应的业务簇和所述业务簇的聚类中心,基于所述业务特征的专家权重构建聚类特征值,基于所述聚类中心构成的周长构建判断阈值,结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离,根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇;数据特征标注模块,用于根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注;所述FPGA芯片基于所述识别策略对标注后的业务数据进行敏感数据的识别。
可选地,所述AI芯片和所述FPGA芯片设置在FPAI芯片上,所述FPAI芯片上还设有主控模块,所述主控模块用于接收所述FPGA芯片对标注后的业务数据进行敏感数据的识别后得到的识别结果,并将所述识别结果发送至所述CPU芯片;所述FPAI芯片上还设有高速共享RAM,所述高速共享RAM的两端分别连接所述AI芯片与所述FPGA芯片,通过所述高速共享RAM构建所述AI芯片与所述FPGA芯片之间的高速缓存通道。
可选地,所述FPGA芯片包括高速敏感数据识别模块和识别结果输出模块;所述敏感数据识别单元包括若干和业务类别对应的基于业务正则表达式构建的并行高速识别单元,所述并行高速识别单元用于对属于对应的业务类别的标注后的业务数据进行敏感数据识别的并行处理;所述识别结果输出模块用于将所述敏感数据识别单元的识别结果输出。
本发明实施例第二方面提供一种基于异构计算的敏感数据识别方法,包括:获取待标注业务数据;根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,并根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注,得到标注后的业务数据;通过并行处理的方式对标注后的业务数据进行敏感数据的识别。
可选地,根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,包括:基于聚类模型获取和业务类别对应的业务簇和所述业务簇的聚类中心;基于所述业务特征的专家权重构建聚类特征值,基于所述聚类中心构成的周长构建判断阈值;结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离;根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇。
可选地,基于所述业务特征的专家权重构建聚类特征值,包括:基于所述业务特征的专家权重构计算相对权重;对所述相对权重进行归一化;根据归一化后的所述相对权重构建聚类特征值。
可选地,结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离,包括:根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的第一平均欧式距离;基于所述第一平均欧式距离构建聚类中心向量;根据所述聚类中心向量和所述聚类特征值计算第二平均欧式距离,其中,所述平均欧式距离包括第一平均欧式距离和第二平均欧式距离。
可选地,根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇,包括:判断所述第一平均欧式距离和第二平均欧式距离是否均在所述判断阈值内;若均在所述判断阈值内,则将所述待标注业务数据分配给和自身距离最近的业务簇,并更新业务簇和聚类中心;若不均在所述判断阈值内,则形成新的业务簇并将所述待标注业务数据作为新的业务簇的聚类中心。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第二方面所述的基于异构计算的敏感数据识别方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供的一种基于异构计算的敏感数据识别***、方法及存储介质,通过CPU芯片获取待标注业务数据,并将待标注业务数据发送至所述AI芯片,AI芯片根据所述待标注业务数据的业务特征判断所述业务数据所属的业务簇,并根据所述业务数据所属的业务簇对所述待标注业务数据进行标注,FPGA芯片通过并行处理的方式对标注后的业务数据进行敏感数据的识别,通过依次连接的CPU芯片、AI芯片和FPGA芯片构建基于CPU+AI+FPGA的异构计算架构,利用AI芯片高效的数据处理能力对待标注业务数据进行标注,并通过FPGA芯片对业务数据进行并行处理,提高了识别电力***业务数据中的敏感数据的效率,突破传统软件识别性能瓶颈。
附图说明
为了更清楚地表达说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于异构计算的敏感数据识别***的结构示意图;
图2为本发明实施例中基于异构计算的敏感数据识别***的工作流程图;
图3为本发明实施例中AI芯片对业务数据标注的流程图;
图4为本发明实施例中形成敏感数据识别单元的流程图;
图5为本发明实施例中基于异构计算的敏感数据识别方法的流程图;
图6为本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于异构计算的敏感数据识别***,如图1和图2所示,该***包括依次连接的CPU芯片、AI芯片和FPGA芯片。
CPU芯片用于获取待标注业务数据,并将待标注业务数据发送至AI芯片。具体地,业务数据包括电力营销、财务、调度、配电等不同业务类别的数据,待标注业务数据从CPU芯片捕获的网络流量数据中获取,待标注业务数据的业务类别无法确定,需要输入至AI芯片中进行业务类别的标注。
AI芯片用于根据待标注业务数据的业务特征判断待标注业务数据所属的业务簇,并根据待标注业务数据所属的业务簇对待标注业务数据进行标注,得到标注后的业务数据。具体地,通过对已知业务类型的样本数据进行聚类预训练得到各个业务类别的业务数据构成的业务簇。提取待标注业务数据中的业务特征,业务特征包括但不限于业务数据的协议类型、报文长度、报文关键字段、交互频率等特征。根据提取的业务特征为每个业务数据构建特征向量,基于该特征向量和各个业务簇的距离判断对应的业务数据所属的业务簇,从而得到业务数据所属的业务类别。通过AI芯片对业务数据进行智能数据处理,利用AI芯片的高效推理的特性,对待标注业务数据进行标注,为待标注业务数据进行分类,可以有效提高待标注业务数据的预处理能力。
FPGA芯片用于通过并行处理的方式对标注后的业务数据进行敏感数据的识别。具体地,FPGA根据标注内容得到标注后的业务数据所属的业务类别,利用多路并行的方式对业务数据进行敏感数据的识别,即每一路对一种业务类别的业务数据进行敏感数据识别,提高了整体的敏感数据的识别效率。
本发明实施例的基于异构计算的敏感数据识别***,通过CPU芯片获取待标注业务数据,并将待标注业务数据发送至AI芯片,AI芯片根据待标注业务数据的业务特征判断业务数据所属的业务簇,并根据业务数据所属的业务簇对待标注业务数据进行标注,FPGA芯片通过并行处理的方式对标注后的业务数据进行敏感数据的识别,通过依次连接的CPU芯片、AI芯片和FPGA芯片构建基于CPU+AI+FPGA的异构计算架构,利用AI芯片高效的数据处理能力对待标注业务数据进行标注,并通过FPGA芯片对业务数据进行并行处理,提高了识别电力***业务数据中的敏感数据的效率,突破传统软件识别性能瓶颈。
在一实施例中,CPU芯片包括网口和数据采集与分发模块,网口和数据采集与分发模块连接,数据采集与分发模块通过高速总线和AI芯片连接;网口用于获取网络流量数据;数据采集与分发模块,用于对网络流量数据进行筛选得到待标注业务数据,并将待标注业务数据通过高速总线发送至AI芯片。
网口可以采用万兆及更高速的网口,网络流量数据可以通过万兆及更高速的网口接入进来,然后通过数据采集与分发模块对网络流量数据进行预处理,过滤掉其他无效流量,筛选得到待标注业务数据,待标注业务数据包括营销、财务、调度等各专业电力场景的业务数据,然后将筛选出的待标注业务数据通过高速总线分发至AI芯片。具体地,还可以在CPU芯片上设置高速缓冲分发模块,通过高速缓冲分发模块把筛选出的业务数据通过高速总线分发至AI芯片。利用CPU芯片的网口和数据采集与分发模块对网络流量数据进行捕获和筛选,能够高效提取网络流量数据中的待标注业务数据。
在一实施例中,AI芯片和FPGA芯片设置在FPAI芯片上,FPAI芯片上还设有主控模块,主控模块用于接收FPGA芯片对业务数据进行敏感数据的识别后得到的识别结果,并将识别结果发送至CPU芯片。
具体地,主控模块包括资源调度模块、规则管理模块、配置管理模块和上位机通信模块,通过上位机通信模块将识别结果发送至CPU芯片,通过资源调度模块、规则管理模块和配置管理模块对AI芯片和FPGA芯片进行管理和配置。通过AI芯片、FPGA芯片和主控模块构建能够高效进行敏感数据识别的FPAI芯片,提高了识别电力***业务数据中的敏感数据的效率,突破传统软件识别性能瓶颈。
在一实施例中,FPAI芯片上还设有高速共享RAM,高速共享RAM的两端分别连接AI芯片与FPGA芯片,通过高速共享RAM构建AI芯片与FPGA芯片之间的高速缓存通道。
具体地,通过高速共享RAM构建AI芯片与FPGA芯片的高速缓存通道,将标注后的业务数据通过高速共享RAM快速传输至FPGA芯片进行并行处理,缩减敏感数据识别的数据传输时间。
在一实施例中,CPU芯片包括模型策略下发模块,用于将聚类模型及识别策略分别下发至AI芯片和FPGA芯片。识别策略为FPGA芯片识别敏感数据的策略,识别策略主要为定义了哪些数据为敏感数据的规则,FPGA芯片通过该规则对敏感数据进行识别。通过将聚类模型及识别策略同步给FPAI芯片的主控模块,同时主控模块获取AI芯片的标注结果以及FPGA芯片的识别结果,根据标注结果和识别结果对模型和策略中的参数或者规则进行更新,并将更新后的聚类模型及识别策略分发到AI芯片和FPGA芯片。
AI芯片包括:数据特征分类模块,用于基于聚类模型获取和业务类别对应的业务簇和业务簇的聚类中心,基于业务特征的专家权重构建聚类特征值,基于聚类中心构成的周长构建判断阈值,结合聚类特征值,根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的平均欧式距离,根据平均欧式距离和判断阈值确定待标注业务数据所属的业务簇;数据特征标注模块,用于根据待标注业务数据所属的业务簇对待标注业务数据进行标注;FPGA芯片基于识别策略对标注后的业务数据进行敏感数据的识别。
具体地,聚类模型为CPU芯片下发给AI芯片的,聚类模型包括和业务类别对应的业务簇和业务簇的聚类中心,CPU芯片对已知业务类别的业务数据样本进行聚类预训练,得到聚类模型。在进行聚类预训练时,根据已知业务类别的业务数据样本的特征向量,选取业务数据的报文的协议类型、接口类型、报文长度、业务特征编码及交互频率等特征作为业务数据聚类收敛指标,采用Kmeans++聚类算法对业务数据样本进行聚类预训练,具体步骤如下:
1、针对业务数据样本,随机提取业务报文的协议类型、接口类型、报文长度、业务特征编码及交互频率等特征这五个特征构建业务数据样本的特征向量,并随机选择一个业务数据样本作为第一个聚类中心。
2、更新每一个业务数据样本到已有聚类中心的最小距离。
3、根据距离大小确定每个业务数据样本成为下一个聚类中心的概率。
4、根据概率大小抽取下一个聚类中心。
5、重复步骤2至4,直至收敛,形成5个聚类中心和对应的业务簇,计算5个业务簇的聚类中心构成的5边形的周长perimeter。
通过聚类预训练,获取各个业务类别的业务数据样本对应的业务簇并得到聚类中心,CPU芯片将聚类预训练获得的业务簇和聚类中心作为聚类模型,将聚类模型下发至AI芯片,AI芯片再从聚类模型中获取和业务类别对应的业务簇和业务簇的聚类中心。
基于业务特征的专家权重构建聚类特征值的具体过程如下:
结合电力***的业务数据的特点,选取业务数据的报文的协议类型、接口类型、报文长度、业务特征编码及交互频率等业务特征构成聚类拟合的特征向量,对当前每个业务数据的报文的业务特征进行排序,哪个业务特征越能反映业务数据类型,则对应的聚类特征值即权重越大,从而在计算最终聚类特征值时所占的权重最大,因而使得这个聚类特征值最能反映业务数据的业务类别。
示例性地,假设一个营销业务数据的报文有5个能反馈的业务特征:104协议、接口类型、报文长度、包含业务特征编号如0X68等及协议的交互频率,这5个业务特征的专家权重的大小从高到低排列为。专家权重来自经验评估,基于专家权重计算相对权重:
其中,为影响系数,为收敛系数,通过经验来设定,n为1至5,表示从大到小排列的第n个专家权重,表示从大到小排列的第n个相对权重,要保证的计算结果在0到1之间。相对权重的计算需要进一步增加专家权重最大的业务特征在计算中所占权重,因而计算得到的相对权重更能体现主要业务特征的属性。在当前业务中我们假设为主要业务特征的专家权重,将专家权重的大小从高到低排列得到,然后根据式(1),在的基础上加上,让风险权重占的更高,具体地,通过式(2)计算相对权重。
(2)
对于其他非主要业务特征的专家权重的相对权重,则需要相应降低,在原先基础上减去,即根据式(3)依次计算其他业务特征的相对权重
(3)
进行归一化,让风险权重占的更高,最终得到聚类特征值
然后,AI芯片基于聚类中心构成的周长perimeter构建判断阈值,示例性地,判断阈值为,结合聚类特征值,根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的平均欧式距离,根据平均欧式距离和判断阈值确定待标注业务数据所属的业务簇。示例性地,根据平均欧式距离判断距离待标注业务数据最近的业务簇,并将该待标注业务数据分配给距离其最近的业务簇。并且在计算平均欧式距离时,还考虑了基于特征权重的聚类特征值,使计算的平均欧式距离更能反应业务数据和业务簇的实际距离。
在一实施例中,CPU芯片包括数据展示模块,数据展示模块用于接收FPGA芯片对业务数据进行敏感数据识别后得到的识别结果并对识别结果进行展示。具体地,识别结果中记录敏感数据的类型及位置,还有报文的原文,通过将识别结果送给主控模块,由上位机通信模块再送给CPU芯片,CPU芯片通过数据展示模块对敏感数据的类型及位置,还有报文的原文等进行统一的展示。
在一实施例中,FPGA芯片包括高速敏感数据识别模块和识别结果输出模块;敏感数据识别单元包括若干和业务类别对应的基于业务正则表达式构建的并行高速识别单元,并行高速识别单元用于对属于对应的业务类别的业务数据进行敏感数据识别的并行处理;识别结果输出模块用于将敏感数据识别单元的识别结果进行输出。
具体地,如图4所示,采用Thompson算法将业务类别对应的业务正则表达式转化为非确定有限状态自动机NFA (Nondeterministic Finite Automata,NFA)并输出NFA状态转换矩阵;利用子集法构造确定有限状态自动机DFA (Deterministic Finite Automata,DFA)并输出DFA状态转换矩阵;将构造的状态变化矩阵,利用VHDL/Verlog等变成语言转换成可执行的VHD执行文件,固化到FPGA芯片中,转换成硬件逻辑电路,形成多个并行高速识别单元,通过多个并行高速识别单元对AI芯片发过来的业务数据进行快速识别,通过识别结果输出模块将识别结果输出,送给CPU芯片进行统一展示。
本发明实施例的基于异构计算的敏感数据识别***,基于CPU+AI+FPGA的异构计算架构,CPU芯片实现数据分发与协调,主要通过网口捕获网络流量数据,CPU芯片还对网络流量进行预处理,过滤掉其他无效流量,筛选出业务数据并将业务数据通过高速通道分发给AI芯片,同时通过将聚类模型及匹配策略同步给FPAI芯片,由FPAI芯片的主控模块统一对AI芯片和FPGA芯片的模型及策略进行更新,CPU芯片还接收FPAI发过来的识别结果,进行总体的展示。AI芯片接收CPU芯片分发的业务数据,通过数据的智能处理,进行特征聚类和计算分析,对业务数据进行标注。FPGA芯片利用多路并行的方式对标注的数据内容进行敏感数据的识。通过AI芯片的智能数据处理对业务数据进行标注,以及FPGA芯片的硬件逻辑识别,提高了整体的敏感数据的识别效率。
本发明实施例还提供一种基于异构计算的敏感数据识别方法,应用于上述实施例中的基于异构计算的敏感数据识别***,如图5所示,该方法包括:
步骤S100:获取待标注业务数据;
步骤S200:根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,并根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注,得到标注后的业务数据;
步骤S300:通过并行处理的方式对标注后的业务数据进行敏感数据的识别。具体内容参见上述***实施例对应部分,在此不再赘述。
本发明实施例的基于异构计算的敏感数据识别方法,获取待标注业务数据,根据待标注业务数据的业务特征判断业务数据所属的业务簇,并根据业务数据所属的业务簇对待标注业务数据进行标注,通过并行处理的方式对标注后的业务数据进行敏感数据的识别,提高了识别电力***业务数据中的敏感数据的效率。
在一实施例中,步骤S200,根据业务数据的业务特征判断业务数据所属的业务簇,包括:
步骤S210:基于聚类模型获取和业务类别对应的业务簇和业务簇的聚类中心。具体地,聚类模型为CPU芯片下发给AI芯片的,聚类模型包括和业务类别对应的业务簇和业务簇的聚类中心,为了知道每个业务簇对应的业务类别,CPU芯片对已知业务类别的业务数据样本进行聚类预训练,得到聚类模型,聚类预训练的具体过程参见上述***实施例。通过聚类预训练,获取各个业务类别的业务数据样本对应的业务簇并得到聚类中心,CPU芯片将聚类预训练获得的业务簇和聚类中心作为聚类模型,将聚类模型下发至AI芯片,AI芯片再从聚类模型中获取和业务类别对应的业务簇和业务簇的聚类中心。
步骤S220:基于业务特征的专家权重构建聚类特征值,基于聚类中心构成的周长构建判断阈值。具体地,基于业务特征的专家权重构建聚类特征值,包括:基于业务特征的专家权重构计算相对权重;对相对权重进行归一化;根据归一化后的相对权重构建聚类特征值。基于业务特征的专家权重构建聚类特征值的具体过程参见上述***实施例。基于聚类中心构成的周长perimeter构建的判断阈值的作用为判断业务数据是否属于已知的业务簇,并以此决定是否生成新的业务簇。
步骤S230:结合聚类特征值,根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的平均欧式距离。
步骤S240:根据平均欧式距离和判断阈值确定待标注业务数据所属的业务簇。
示例性地,判断阈值为,结合聚类特征值,根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的平均欧式距离,若最小的平均欧式距离位于判断阈值内,则将该待标注业务数据分配给距离其最近的业务簇,否则生成新的业务簇,把该待标注业务数据作为新的聚类中心,并进行业务赋值。
在一实施例中,步骤S230,结合聚类特征值,根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的平均欧式距离,包括:
步骤S231:根据待标注业务数据的业务特征和业务簇内业务数据的业务特征计算待标注业务数据到业务簇的第一平均欧式距离;
步骤S232:基于第一平均欧式距离构建聚类中心向量;
步骤S233:根据聚类中心向量和聚类特征值计算第二平均欧式距离,其中,平均欧式距离包括第一平均欧式距离和第二平均欧式距离。
具体地,假设待标注业务数据的业务特征构成的特征向量为对象X,业务簇内的业务数据的业务特征构成的特征向量为点y,对象X和点y是空间中两个离散的点,它们之间的距离可以采用欧氏距离计算。计算公式如下:
(4)
同时,对象X和业务簇的距离可以用平均欧式距离描述,若业务簇内有n个点,则对象X和业务簇的距离,即第一平均欧式距离计算公式为:
(5)
基于式4和式5,计算得到待标注业务数据和每个业务簇的第一平均欧式距离,并通过第一平均欧式距离构建聚类中心向量w,具体地:,然后根据聚类中心向量w和预先获取的聚类特征值计算第二平均欧式距离。具体地,第二平均欧式距离的计算公式为:
(6)
本发明实施例在计算平均欧式距离时,不仅考虑了表示待标注待测业务数据和业务簇的平均距离的第一平均欧式距离,还考虑了基于特征权重的聚类特征值计算第二平均欧式距离,使计算的平均欧式距离更能反应业务数据和业务簇的实际距离。
在一实施例中,计算获得第一平均欧式距离和第二平均欧式距离后,根据第一平均欧式距离、第二平均欧式距离和判断阈值确定待标注业务数据所属的业务簇,包括:
判断第一平均欧式距离和第二平均欧式距离是否均在判断阈值内;
若均在判断阈值内,则将待标注业务数据分配给和自身距离最近的业务簇,并更新业务簇和聚类中心;
若不均在判断阈值内,则形成新的业务簇并将待标注业务数据作为新的业务簇的聚类中心。
具体地,如图3所示,假设判断阈值为,将待标注业务数据对应的特征向量用对象X表示,计算对象X与每个业务簇的第一平均欧式距离dist及第二平均欧式距离,第一平均欧式距离dist及第二平均欧式距离均在预设阈值范围内,把对象X分配给距离它最近的业务簇,更新业务簇内的特征向量然后重新计算业务簇的聚类中心,对业务簇内的点取均值,然后把待标注业务数据根据的业务簇进行业务标注。若第一平均欧式距离dist及第二平均欧式距离均在该判断阈值范围外,则对象X不属于任何一类已知的业务簇,基于AI芯片中的深度学习模型形成新的业务簇,进行业务赋值,同时该对象X也成为该簇的第一个聚类中心。
本发明实施例通过对待标注业务数据进行聚类,判断业务数据的业务簇和类别,对待标注业务进行标注,并在聚类过程中引入机器学习方法,提升了标注的速度和准确性。
本发明实施例还提供一种计算机可读存储介质,如图6所示,其上存储有计算机程序510,该指令被处理器执行时实现上述实施例中基于异构计算的敏感数据识别方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序510可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种基于异构计算的敏感数据识别***,其特征在于,包括依次连接的CPU芯片、AI芯片和FPGA芯片;
所述CPU芯片用于获取待标注业务数据,并将所述待标注业务数据发送至所述AI芯片;
所述AI芯片用于根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,并根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注,得到标注后的业务数据;
所述FPGA芯片用于通过并行处理的方式对标注后的业务数据进行敏感数据的识别。
2.根据权利要求1所述的基于异构计算的敏感数据识别***,其特征在于,所述CPU芯片包括网口和数据采集与分发模块,所述网口和所述数据采集与分发模块连接,所述数据采集与分发模块通过高速总线和所述AI芯片连接;
所述网口用于获取网络流量数据;
所述数据采集与分发模块用于对所述网络流量数据进行筛选得到待标注业务数据,并将所述待标注业务数据通过高速总线发送至所述AI芯片。
3.根据权利要求1所述的基于异构计算的敏感数据识别***,其特征在于,所述CPU芯片包括模型策略下发模块,用于将聚类模型及识别策略分别下发至所述AI芯片和所述FPGA芯片;
所述AI芯片包括:
数据特征分类模块,用于基于聚类模型获取和业务类别对应的业务簇和所述业务簇的聚类中心,基于所述业务特征的专家权重构建聚类特征值,基于所述聚类中心构成的周长构建判断阈值,结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离,根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇;
数据特征标注模块,用于根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注;
所述FPGA芯片基于所述识别策略对标注后的业务数据进行敏感数据的识别。
4.根据权利要求1所述的基于异构计算的敏感数据识别***,其特征在于,所述AI芯片和所述FPGA芯片设置在FPAI芯片上,所述FPAI芯片上还设有主控模块,所述主控模块用于接收所述FPGA芯片对标注后的业务数据进行敏感数据的识别后得到的识别结果,并将所述识别结果发送至所述CPU芯片;
所述FPAI芯片上还设有高速共享RAM,所述高速共享RAM的两端分别连接所述AI芯片与所述FPGA芯片,通过所述高速共享RAM构建所述AI芯片与所述FPGA芯片之间的高速缓存通道。
5.根据权利要求1所述的基于异构计算的敏感数据识别***,其特征在于,所述FPGA芯片包括高速敏感数据识别模块和识别结果输出模块;
所述敏感数据识别单元包括若干和业务类别对应的基于业务正则表达式构建的并行高速识别单元,所述并行高速识别单元用于对属于对应的业务类别的标注后的业务数据进行敏感数据识别的并行处理;
所述识别结果输出模块用于将所述敏感数据识别单元的识别结果输出。
6.一种基于异构计算的敏感数据识别方法,其特征在于,包括:
获取待标注业务数据;
根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,并根据所述待标注业务数据所属的业务簇对所述待标注业务数据进行标注,得到标注后的业务数据;
通过并行处理的方式对标注后的业务数据进行敏感数据的识别。
7.根据权利要求6所述的基于异构计算的敏感数据识别方法,其特征在于,根据所述待标注业务数据的业务特征判断所述待标注业务数据所属的业务簇,包括:
基于聚类模型获取和业务类别对应的业务簇和所述业务簇的聚类中心;
基于所述业务特征的专家权重构建聚类特征值,基于所述聚类中心构成的周长构建判断阈值;
结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离;
根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇。
8.根据权利要求7所述的基于异构计算的敏感数据识别方法,其特征在于,基于所述业务特征的专家权重构建聚类特征值,包括:
基于所述业务特征的专家权重构计算相对权重;
对所述相对权重进行归一化;
根据归一化后的所述相对权重构建聚类特征值。
9.根据权利要求7所述的基于异构计算的敏感数据识别方法,其特征在于,结合所述聚类特征值,根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的平均欧式距离,包括:
根据所述待标注业务数据的业务特征和业务簇内业务数据的业务特征计算所述待标注业务数据到所述业务簇的第一平均欧式距离;
基于所述第一平均欧式距离构建聚类中心向量;
根据所述聚类中心向量和所述聚类特征值计算第二平均欧式距离,其中,所述平均欧式距离包括第一平均欧式距离和第二平均欧式距离。
10.根据权利要求9所述的基于异构计算的敏感数据识别方法,其特征在于,根据所述平均欧式距离和所述判断阈值确定所述待标注业务数据所属的业务簇,包括:
判断所述第一平均欧式距离和第二平均欧式距离是否均在所述判断阈值内;
若均在所述判断阈值内,则将所述待标注业务数据分配给和自身距离最近的业务簇,并更新业务簇和聚类中心;
若不均在所述判断阈值内,则形成新的业务簇并将所述待标注业务数据作为新的业务簇的聚类中心。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求6至10任一项所述的基于异构计算的敏感数据识别方法。
CN202310418681.2A 2023-04-19 2023-04-19 基于异构计算的敏感数据识别***、方法及存储介质 Active CN116127400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310418681.2A CN116127400B (zh) 2023-04-19 2023-04-19 基于异构计算的敏感数据识别***、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310418681.2A CN116127400B (zh) 2023-04-19 2023-04-19 基于异构计算的敏感数据识别***、方法及存储介质

Publications (2)

Publication Number Publication Date
CN116127400A true CN116127400A (zh) 2023-05-16
CN116127400B CN116127400B (zh) 2023-06-27

Family

ID=86303150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310418681.2A Active CN116127400B (zh) 2023-04-19 2023-04-19 基于异构计算的敏感数据识别***、方法及存储介质

Country Status (1)

Country Link
CN (1) CN116127400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821638A (zh) * 2023-08-31 2023-09-29 北京中电科卫星导航***有限公司 Ai芯片应用优化设计的数据分析方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980440A (zh) * 2015-06-23 2015-10-14 南京邮电大学 基于内容过滤和多Agent协作的有源配电网大数据传输方法
CN108776833A (zh) * 2018-06-05 2018-11-09 郑州云海信息技术有限公司 一种数据处理方法、***及计算机可读存储介质
CN112579923A (zh) * 2020-12-29 2021-03-30 南京航空航天大学 基于欧式距离和相对方向的不确定移动对象轨迹分组方法
US20210097221A1 (en) * 2019-09-29 2021-04-01 Huazhong University Of Science And Technology Optimization method for graph processing based on heterogeneous fpga data streams
CN114118730A (zh) * 2021-11-10 2022-03-01 云南电网有限责任公司信息中心 一种电力企业业务流程的合规检测方法
CN114511019A (zh) * 2022-01-25 2022-05-17 全球能源互联网研究院有限公司 一种敏感数据分类分级标识方法及***
CN115640603A (zh) * 2022-10-13 2023-01-24 国网智能电网研究院有限公司 隐私敏感数据识别模型构建及识别方法、装置及存储介质
CN115858785A (zh) * 2022-12-06 2023-03-28 北京安信天行科技有限公司 一种基于大数据的敏感数据识别方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980440A (zh) * 2015-06-23 2015-10-14 南京邮电大学 基于内容过滤和多Agent协作的有源配电网大数据传输方法
CN108776833A (zh) * 2018-06-05 2018-11-09 郑州云海信息技术有限公司 一种数据处理方法、***及计算机可读存储介质
US20210097221A1 (en) * 2019-09-29 2021-04-01 Huazhong University Of Science And Technology Optimization method for graph processing based on heterogeneous fpga data streams
CN112579923A (zh) * 2020-12-29 2021-03-30 南京航空航天大学 基于欧式距离和相对方向的不确定移动对象轨迹分组方法
CN114118730A (zh) * 2021-11-10 2022-03-01 云南电网有限责任公司信息中心 一种电力企业业务流程的合规检测方法
CN114511019A (zh) * 2022-01-25 2022-05-17 全球能源互联网研究院有限公司 一种敏感数据分类分级标识方法及***
CN115640603A (zh) * 2022-10-13 2023-01-24 国网智能电网研究院有限公司 隐私敏感数据识别模型构建及识别方法、装置及存储介质
CN115858785A (zh) * 2022-12-06 2023-03-28 北京安信天行科技有限公司 一种基于大数据的敏感数据识别方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821638A (zh) * 2023-08-31 2023-09-29 北京中电科卫星导航***有限公司 Ai芯片应用优化设计的数据分析方法及***
CN116821638B (zh) * 2023-08-31 2023-12-22 北京中电科卫星导航***有限公司 Ai芯片应用优化设计的数据分析方法及***

Also Published As

Publication number Publication date
CN116127400B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US10311044B2 (en) Distributed data variable analysis and hierarchical grouping system
US11244232B2 (en) Feature relationship recommendation method, apparatus, computing device, and storage medium
WO2021068831A1 (zh) 一种业务告警方法、设备及存储介质
WO2021068513A1 (zh) 异常对象识别方法、装置、介质及电子设备
CN111652280B (zh) 基于行为的目标物数据分析方法、装置及存储介质
CN116127400B (zh) 基于异构计算的敏感数据识别***、方法及存储介质
CN113762377A (zh) 网络流量识别方法、装置、设备及存储介质
CN112884121A (zh) 基于生成对抗深度卷积网络的流量识别方法
Zhou et al. Network traffic prediction method based on echo state network with adaptive reservoir
WO2022257421A1 (zh) 集群异常检测方法、装置和相关设备
Gao et al. A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction
CN115115369A (zh) 数据处理方法、装置、设备及存储介质
CN114679283A (zh) 区块链数据请求处理方法、装置、服务器及存储介质
US20230017215A1 (en) Modeling method and apparatus
CN115438658A (zh) 一种实体识别方法、识别模型的训练方法和相关装置
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN110929118A (zh) 网络数据处理方法、设备、装置、介质
CN114338442B (zh) 一种基于特征数据和深度学习的网络流量识别方法及***
US12021731B1 (en) System and method for evaluating compliance of transmitted object data via data efficiency mapping
CN116405330B (zh) 基于迁移学习的网络异常流量识别方法、装置和设备
Mao et al. A semantic segmentation algorithm for distributed energy data storage optimization based on neural networks
US20240232693A1 (en) System and method for electronic compliance evaluation of transmitted object data via a machine learning model
James et al. Analysis of support vector machine and random forest models for predicting the scalability of a broadband network
Yin et al. Unknown Binary Protocol Recognition Algorithm Based on One Class of Classification and One‐Dimensional CNN
CN116132257A (zh) 基于流式计算的衍生告警确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant