CN117077071A

CN117077071A - 一种基于数据分级的数据分析方法及***

Info

Publication number: CN117077071A
Application number: CN202310830398.0A
Authority: CN
Inventors: 赵刘琦; 高兴宇; 成静文; 文星; 陈欢; 王朝硕; 黄振林; 王宁; 朱金惟; 申晓杰; 冯子焰; 张宇恒; 邱天乙
Original assignee: Institute of Microelectronics of CAS; Super High Transmission Co of China South Electric Net Co Ltd
Current assignee: Institute of Microelectronics of CAS; Super High Transmission Co of China South Electric Net Co Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-11-17

Abstract

本发明涉及一种基于数据分级的数据分析方法及***，属于数据挖掘与分析技术领域，解决了现有数据分析中语义关系不完整和关联数据可用性不高的问题。包括获取电力***的事件数据，包括图像及其文本内容；根据文本特征提取器，提取出文本内容中各分词和文本特征编码；利用图像特征提取器，提取出图像中各目标和图像特征编码；基于知识图谱嵌入，获取存在于知识图谱的分词和目标对应的嵌入向量；根据嵌入向量间的相似度，构建关系特征向量；根据关系特征向量、文本特征编码和图像特征编码，得到多模态特征向量，传入分级识别模块，得到各事件数据的级别；根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系。实现了准确的数据分析。

Description

一种基于数据分级的数据分析方法及***

技术领域

本发明涉及数据挖掘与分析技术领域，尤其涉及一种基于数据分级的数据分析方法及***。

背景技术

企业的数字化转型离不开高质量的数据管理和分析，目前，机器学习和人工智能等新技术在数据管理和分析方面的应用不断增加。这些新技术可以帮助企业更好地理解和应用数据，提高数据的质量和管理效率。通过机器学习和数据挖掘等技术，可以快速识别和提取数据中的重要信息和模式，从而更好地应对复杂的数据管理任务。自动化的数据管理和分析工具可以帮助企业快速识别和利用数据中的关键信息，以便更好地进行业务决策和发掘潜在机会。

目前，业内大多数的数据资产盘点工作是通过手工作业的方式进行的，使用Excel工具进行记录。然而，换流站在运行期间需要使用到大量设备，在换流站进行管理时也需要使用到更多的控制***，使电力企业的数据体量变得极为庞大。另一方面，换流站的运行会产生多种结构化、非架构化的数据，同时存在数量庞大的影音数据、能源数据和天气数据等等关联的数据。这些因素使得电力数据的特征，区别于其他数据，拥有数据种类多、容量庞大等特征。若由人工进行数据盘点，不仅费时费力，而且对于不同结构的关联数据，例如监控视频采集到设备的异常告警，和文字记录的历史故障，人工分析也存在误判和遗漏的可能性。

另外，现有技术中未引入外部信息，无法准确提取数据间的特征，导致语义关系不完整，而且没有关注数据的重要性，对包含不同级别的数据进行分析，既影响数据分析和查询速度，又建立了很多弱关联关系，使得数据关联出很多作用不大的信息，影响用户使用。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于数据分级的数据分析方法及***，用以解决现有数据分析中语义关系不完整和关联数据可用性不高的问题。

一方面，本发明实施例提供了一种基于数据分级的数据分析方法，包括以下步骤：

获取电力***的事件数据，每条事件数据包括图像及其文本内容；

根据文本特征提取器，提取出文本内容中各分词和文本特征编码；利用图像特征提取器，提取出图像中各目标和图像特征编码；

基于知识图谱嵌入，将存在于知识图谱的分词和目标，分别放入文本节点集合和图像节点集合，并获取各节点的嵌入向量；根据各节点的嵌入向量间的相似度，构建各节点的关系特征向量；

根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，传入分级识别模块，得到各事件数据的级别；根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系。

基于上述方法的进一步改进，关系特征向量是由四个组的关系值构成的一个四维向量；四个组的关系值是根据相似度的正负值，以及相比较的节点所属集合而分成的四个组中，各组相似度的总和。

基于上述方法的进一步改进，方法还包括：将不存在于知识图谱的分词和目标的关系特征向量设置为由零组成的四维向量。

基于上述方法的进一步改进，根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，包括：

将文本节点集合中各节点的关系特征向量拼接在文本特征编码头部；将图像节点集合中各节点的关系特征向量拼接在图像特征编码头部；将拼接后的两种特征向量分别经过两个线性层，输出相同维度的特征表示；将相同事件数据的两种特征表示连接组合得到多模态特征向量。

基于上述方法的进一步改进，分级识别模块接收到各事件数据的多模态特征向量后，先经过线性层投影，再经过softmax层得到各事件数据的级别；级别包括核心、重要和一般。

基于上述方法的进一步改进，根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系，包括：

将相同级别的事件数据的图像和文本内容输入预训练好的CLIP模型，获取输入softmax层的融合特征向量；

利用聚类算法对融合特征向量进行分类，根据分类结果，对同一类的事件数据建立强关联关系。

基于上述方法的进一步改进，文本特征编码和图像特征编码具有相同长度，是通过分别将文本特征提取器和图像特征提取器中最后一个隐藏层的输出，依次经过两个线性层、正则化处理和激活函数而得到。

基于上述方法的进一步改进，知识图谱嵌入是采用TransE模型获取Freebase知识图谱数据集中各实体的嵌入向量。

基于上述方法的进一步改进，文本特征提取器采用预训练好的Bert模型，图像特征提取器采用预训练好的Vision Transformer模型。

另一方面，本发明实施例提供了一种基于数据分级的数据分析***，包括：

事件数据获取模块，用于获取电力***的事件数据，每条事件数据包括图像及其文本内容；

事件特征提取模块，用于根据文本特征提取器，提取出文本内容中各分词和文本特征编码；利用图像特征提取器，提取出图像中各目标和图像特征编码；

联合关系提取模块，用于基于知识图谱嵌入，将存在于知识图谱的分词和目标，分别放入文本节点集合和图像节点集合，并获取各节点的嵌入向量；根据各节点的嵌入向量间的相似度，构建各节点的关系特征向量；

数据分级分析模块，用于根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，传入分级识别模块，得到各事件数据的级别；根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系。

与现有技术相比，本发明至少可实现如下有益效果之一：合理引入外部信息，根据外部信息间的嵌入向量的相似度，补充事件数据中图像和文本的语义关系，实现了对事件数据特征的综合考量，提高对电力***的事件数据分级的准确性；根据事件数据的级别，有针对性地、选择性地对指定级别的数据，或者对相同级别的数据进行关联分析，缩小数据处理规模，减小数据分析对***性能造成的损失；通过对融合特征向量的聚类分析，建立相同级别数据的强关联关系，提高数据的可用性。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例1中一种基于数据分级的数据分析方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于数据分级的数据分析方法，如图1所示，包括以下步骤：

S11、获取电力***的事件数据，每条事件数据包括图像及其文本内容。

需要说明的是，在电力公司的换流站的各个关键工作站，比如：运行人员工作站、油色谱工作站、电能计量工作站都安装有监控摄像头，通过视频监控***采集各个关键事件的图像数据，预处理为统一大小，同时，1张图像数据至少对应一条文本内容。

示例性地，关键事件是：油色谱工作站气相色谱仪检修，采集的图像数据是检修场景图像，对应3条文本内容有3条：2018年6月油色谱工作站第一气相色谱仪读数异常；6月3日外来人员登记进入油色谱工作站；某工作人员对气相色谱仪检修。

S12、根据文本特征提取器，提取出文本内容中各分词和文本特征编码；利用图像特征提取器，提取出图像中各目标和图像特征编码。

需要说明的是，文本特征提取器采用预训练好的Bert模型，Bert模型的输入向量由Token嵌入、段嵌入和位置嵌入组成。其中Token嵌入是利用WordPiece对每条文本内容中各分词{w₀,w₁,...,w_t}进行token化而获得，同时在句子序列前面添加分类标志[CLS]用来获得文本特征的最终表示，用于后续分类，在句子间添加标志[SEP]来区分句子上下文；段嵌入是用来表示各分词对应的句子；位置嵌入是对各分词进行标号，确定分词在序列中的具***置。

Bert模型利用多层Transformer作为主要框架，学习丰富的上下文信息，本步骤中取文本特征提取器最后一个隐藏层的输出，依次经过两个线性层、正则化处理和激活函数，得到token编码，作为文本特征编码E_text，表示如下：

E_text＝Tr{f₁{w₀,w₁,...,w_t}}＝(x₁,x₂,...,x_n) 公式(1)

其中，f₁表示对文本预处理操作，Tr表示经过多层Transformer处理，n表示文本特征编码长度。

需要说明的是，图像特征提取器采用预训练好的VisionTransformer(ViT)模型，先将输入图像切分成相等的图像块{v₀,v₁,...,v_M}序列，然后通过线性投影层到一个低维空间，将这些图像块转换为向量序列，接着将这些向量序列输入到Transformer编码器中进行处理。示例性地，输入图像的大小是224×224，切分成16×16的图像块。

同样地，取图像特征提取器最后一个隐藏层的输出，并将其依次经过两个线性层、正则化处理和激活函数，得到编码后的特征向量，作为图像特征编码表示E_image：

E_image＝Tr{f₂{v₀,v₁,...,v_m}}＝(y₁,y₂,...,y_n) 公式(2)

其中，f₂表示对图像块预处理操作，Tr表示经过多层Transformer处理，图像特征编码的长度n与文本特征编码长度相同。

进一步地，根据图像特征提取器的输出结果，识别出图像中各目标。示例性地，油色谱工作站气相色谱仪检修的图像中，目标包括气相色谱仪和人。

S13、基于知识图谱嵌入，将存在于知识图谱的分词和目标，分别放入文本节点集合和图像节点集合，并获取各节点的嵌入向量；根据各节点的嵌入向量间的相似度，构建各节点的关系特征向量。

需要说明的是，知识图谱(knowledge graph，KG)是一种用图模型来描述知识和建模事物之间关联关系的技术。知识图谱嵌入(knowledge graphembedding，KGE)作为一种被广泛采用的知识表示方法，其主要思想是将知识图谱中的实体和关系嵌入到连续的向量空间中，以便通过评分函数量化它们的相似度。Freebase是一个庞大、多领域的知识图谱数据集，包含超过2.5亿个实体，收集了很多实体属性和关系属性信息。

本步骤中知识图谱嵌入是采用TransE模型获取Freebase知识图谱数据集中各实体的嵌入向量。TransE模型又称为翻译模型，是一种可以用嵌入(embedding)的方式来表示大规模的多关系数据集上的实体和关系的方法。

需要说明的是，根据步骤S12的文本特征提取器和图像特征提取器，将每条文本内容的各分词和图像中各目标的名称，作为实体名称，识别是否存在于知识图谱中，将存在于知识图谱的分词和目标，分别放入文本节点和图像节点集合，并获取到各节点的嵌入向量。即节点集合中的分词和目标可以与知识图谱对齐匹配。

根据余弦相似度，对于一个节点v_i，得到它与其它节点{v₁,v₂,...,v_k}之间的相似度{d_i1,d_i2,...,d_ik}。

考虑到相似度的范围在[-1,1]之间，正负值具有不同的含义，节点所属集合包括文本节点集合V^T和图像节点集合V^I，因此，将{d_i1,d_i2,...,d_ik}根据相似度的正负值，以及相比较的节点所属集合分成四个组，由每组相似度的总和计算得到四个关系值，构成一个四维向量作为节点v_i的关系特征向量，记为R_i＝(r_i0,r_i1,r_i2,r_i3)，具体计算公式如下所示：

需要说明的是，将不存在于知识图谱的分词和目标的关系特征向量设置为由零组成的四维向量R_z＝(0,0,0,0)。

通过上述步骤，每条文本内容中m个分词和每张图像中g个目标都对应一个关系特征向量。

与现有技术相比，本实施例借助于庞大、多领域的知识图谱引入外部信息，根据外部信息间的嵌入向量的相似度，补充事件数据中图像和文本的语义关系，实现了对事件数据特征的综合考量，提高了数据分析的准确性。

S14、根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，传入分级识别模块，得到各事件数据的级别；根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系。

需要说明的是，本实施例预先参考国家电力行业与专业领域的业务标准，以及电网内部各部分数据的使用情况，制定事件数据分级分类标准。对历史事件数据，由专家按照标准进行级别标注，级别包括：核心、重要和一般三个等级。分级识别模块包括线性层和softmax分类层，使用交叉熵损失函数进行训练，得到训练好的分级识别模块。

在实际任务中，根据步骤S11获取到新增加或待识别的事件数据，根据步骤S12和S13得到本特征编码、图像特征编码和关系特征向量后，通过以下步骤得到各事件数据的多模态特征向量，包括：

将各事件数据的多模态特征向量，传入分级识别模块，先经过线性层投影，再经过softmax层得到各事件数据的级别。

需要说明的是，分级识别模块对每条事件数据输出各级别的置信程度，用置信指数表示，值域为[0,1]，取置信程度最大的级别作为识别结果。如果最大的置信指数小于0.9，由人工进行二次复核，从而实现精确的数据分级以及数据分类。

本实施通过确定事件数据的级别对指定级别的数据进行有选择性地关联分析处理，免除对不同级别的数据处理，缩小数据处理规模，减小数据分析对***性能造成的损失，对维持***的高性能有着积极的意义。

优选地，对核心或重要级别的事件数据进行强关联分析，减少分析的数据范围，快速检索给用户所需的信息；另外，对相同级别的数据进行分析，还可以实现对权限较低的用户，只提供普通级别的事件数据及其关联数据的查询。

本步骤中利用CLIP(Contrastive Language-Image Pre-Training，基于对比文本-图像对的预训练)模型学习相同级别的事件数据中图像和文本之间的语义联系，得到融合特征向量。

训练CLIP模型的样本集中，图像数据集采用ImageNet和COCO数据集，文本数据集采用Wikipedia和BookCorpus。CLIP模型包含两个主要组成部分：一个用于处理图像的卷积神经网络(CNN)和一个用于处理文本的Transformer模型。使用对比学习的方法来训练CLIP模型。对比学习的目的是学习如何将相似的图像和文本样本映射到相近的嵌入空间中，而将不相似的样本映射到较远的嵌入空间中。CLIP模型使用了不同的对比损失函数来实现这一目标，如NT-Xent对比损失函数。

在本步骤中根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系，包括：

将相同级别的事件数据的图像和文本内容输入预训练好的CLIP模型，获取输入softmax层的融合特征向量；利用聚类算法对融合特征向量进行分类，根据分类结果，对同一类的事件数据建立强关联关系。

需要说明的是，softmax层用于获取CLIP模型最后的输出结果，而本步骤并不需要输出结果，而是获取用于识别输出结果的特征向量，以便进行聚类分析。相同级别的事件数据之间建立了强关联关系后，当用户查找某一条核心事件数据时，则自动输出与之强关联的核心事件数据，提高数据的可用性。另外，在构建电力***的数据目录时，也可以根据分析结果，将相关数据存储或关联起来，帮助企业快速识别和利用数据中的关键信息，以便更好地进行业务决策和发掘潜在机会。

与现有技术相比，本实施例提供的一种基于数据分级的数据分析方法，合理引入外部信息，根据外部信息间的嵌入向量的相似度，补充事件数据中图像和文本的语义关系，实现了对事件数据特征的综合考量，提高对电力***的事件数据分级的准确性；根据事件数据的级别，有针对性地、选择性地挑选出重要或核心的数据进行关联分析，缩小数据处理规模，减小数据分析对***性能造成的损失；通过对融合特征向量的聚类分析，建立强关联关系，提高数据的可用性。

实施例2

本发明的另一个实施例，公开了一种基于数据分级的数据分析***，从而实现实施例1中的基于数据分级的数据分析方法。各模块的具体实现方式参照实施例1中的相应描述。该***包括：

数据分级分析模块，用于根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，传入分级识别模块，得到各事件数据的级别；根据CLIP模型和聚类算法，分析出核心级别的事件数据间的关联关系。

由于本实施例与前述一种基于数据分级的数据分析方法相关之处可相互借鉴，此处为重复描述，故这里不再赘述。由于本***实施例与上述方法实施例原理相同，所以本***实施例也具有上述方法实施例相应的技术效果。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于数据分级的数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于数据分级的数据分析方法，其特征在于，所述关系特征向量是由四个组的关系值构成的一个四维向量；所述四个组的关系值是根据相似度的正负值，以及相比较的节点所属集合而分成的四个组中，各组相似度的总和。

3.根据权利要求2所述的基于数据分级的数据分析方法，其特征在于，方法还包括：将不存在于知识图谱的分词和目标的关系特征向量设置为由零组成的四维向量。

4.根据权利要求3所述的基于数据分级的数据分析方法，其特征在于，所述根据关系特征向量、文本特征编码和图像特征编码，得到各事件数据的多模态特征向量，包括：

5.根据权利要求4所述的基于数据分级的数据分析方法，其特征在于，所述分级识别模块接收到各事件数据的多模态特征向量后，先经过线性层投影，再经过softmax层得到各事件数据的级别；所述级别包括核心、重要和一般。

6.根据权利要求1或5所述的基于数据分级的数据分析方法，其特征在于，所述根据CLIP模型和聚类算法，分析出相同级别的事件数据间的关联关系，包括：

7.根据权利要求1所述的基于数据分级的数据分析方法，其特征在于，所述文本特征编码和图像特征编码具有相同长度，是通过分别将文本特征提取器和图像特征提取器中最后一个隐藏层的输出，依次经过两个线性层、正则化处理和激活函数而得到。

8.根据权利要求1所述的基于数据分级的数据分析方法，其特征在于，所述知识图谱嵌入是采用TransE模型获取Freebase知识图谱数据集中各实体的嵌入向量。

9.根据权利要求1所述的基于数据分级的数据分析方法，其特征在于，所述文本特征提取器采用预训练好的Bert模型，所述图像特征提取器采用预训练好的VisionTransformer模型。

10.一种基于数据分级的数据分析***，其特征在于，包括：