CN116578613B

CN116578613B - 一种用于大数据分析的数据挖掘***

Info

Publication number: CN116578613B
Application number: CN202310855939.5A
Authority: CN
Inventors: 金萍; 葛浩然; 宗瑜
Original assignee: Hefei Shangchuang Information Technology Co ltd; West Anhui University
Current assignee: Hefei Shangchuang Information Technology Co ltd; West Anhui University
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-08
Anticipated expiration: 2043-07-13
Also published as: CN116578613A

Abstract

本发明涉及大数据技术领域，公开了一种用于大数据分析的数据挖掘***，包括：数据预处理模块，基于政务数据识别政务数据中所包含的实体，基于实体之间的关系生成政务数据图谱，并为实体生成实体向量；图生成模块，基于政务数据图谱来生成图矩阵；区域生成模块，将图矩阵均等划分为N个不重叠的子区域；按顺序拼接所有子区域的区域参数生成子区域向量；数据处理模块，其用于将图矩阵、子区域向量和实体向量输入数据编码模型，输出与数据挖掘目标有关的分类标签；本发明对图矩阵以及采样区域参数的学习来弥补对于实体之间缺失的关联关系，适用于政务大数据的数据挖掘处理。

Description

一种用于大数据分析的数据挖掘***

技术领域

本发明涉及大数据技术领域，更具体地说，它涉及一种用于大数据分析的数据挖掘***。

背景技术

政务大数据指的是政府部门采集、整合、分析、利用的海量数据。政务大数据的特点主要有以下几个方面：一、规模大。政务大数据以TB甚至PB为单位进行管理，数据规模远远超过普通企业的数据。二、数据复杂多样。政务大数据包含不同格式的数据，如结构化数据、非结构化数据、半结构化数据等。三、多维关联。政务大数据还有多维度关联的特点，能够通过分析不同维度之间存在的关联，发现新的知识和规律。政务大数据来源的政府部门存在复杂的组织关系，因此政务大数据之间的关联关系通过基于规则的方法或一般的机器学习的方法进行发现的效果较差，应用于具体的数据挖掘任务时难以完成目标。

发明内容

本发明提供一种用于大数据分析的数据挖掘***，解决相关技术中政务大数据之间的关联关系通过基于规则的方法或一般的机器学习的方法进行发现的效果较差的技术问题。

本发明提供了一种用于大数据分析的数据挖掘***，包括：数据预处理模块，基于政务数据识别政务数据中所包含的实体，基于实体之间的关系生成政务数据图谱，并为实体生成实体向量；图生成模块，基于政务数据图谱来生成图矩阵，图矩阵中的元素赋值为0或1，表示实体之间是否存在关系；区域生成模块，将图矩阵均等划分为N个不重叠的子区域，每个子区域的大小为M*M个元素。

提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数，表示为，其中/>分别表示子区域的左下角的元素的行列数，/>分别表示子区域的右上角的元素的行列数；按顺序拼接所有子区域的区域参数生成子区域向量；数据处理模块，其用于将图矩阵、子区域向量和实体向量输入数据编码模型，数据编码模型包括：第一线性层、第一采样层、第一隐藏层和第一全连接层。

第一线性层的计算公式如下：，其中/>表示子区域向量，/>表示采样区域向量，/>表示第一线性层的权重参数，/>表示向上取整或四舍五入到整数，/>表示激活函数，选择正弦函数或双曲正切函数。

采样区域向量输入第一采样层，第一采样层将采样区域向量还原为采样区域的区域参数，在图矩阵内生成对应的采样区域，将采样区域对应的图矩阵内的空元素填充为1。

将第一采样层更新之后的图矩阵和实体向量输入第一隐藏层，第一隐藏层对实体向量进行更新获得加权实体向量，图矩阵和加权实体向量输入第一全连接层，第一全连接层输出与数据挖掘目标有关的分类标签。

进一步地，图矩阵的第i行第j列的元素表示为，/>为0表示第i和j个实体之间没有关系，/>为1表示第i和j个实体之间有关系。

进一步地，如果图矩阵无法均等划分，则对图矩阵进行边缘填充，每次边缘填充完成后图矩阵的行列数加1，边缘填充至图矩阵能够被均等划分为止。

进一步地，采样区域的区域参数的定义与子区域的区域参数的定义相同；如果采样区域的区域参数为负值，则表示该采样区域的大小为0。

进一步地，第一隐藏层的计算公式如下：，其中/>和/>分别表示实体向量和加权实体向量的张量矩阵，/>表示图矩阵与单位矩阵的和，/>表示/>的度矩阵，/>表示第一隐藏层的权重矩阵，/>表示ReLU激活函数。

进一步地，第一隐藏层为多层结构，计算公式如下：，其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入，当l=1时/>表示实体向量的张量矩阵，当l＞1时/>表示第l层的第一隐藏层的输出，/>表示图矩阵与单位矩阵的和，/>表示/>的度矩阵，/>表示第l+1层第一隐藏层的权重矩阵。

进一步地，第一线性层包括多个输入通道，每个输入通道包括一个不同的实体排列顺序的图矩阵；第一采样层对在每个图矩阵上分别进行对应的采样区域生成，对每个输入的图矩阵进行更新；第一隐藏层对应于每个图矩阵存在一个通道，每个通道输出一组加权实体向量，多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。

进一步地，政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称等。

在第一全连接层之前设置的第二采样层，第二采样层从一个政务人员的一次政务工作任务的记录中提取实体，从加权实体向量中提取对应于从该次政务工作任务的记录中提取的实体的加权实体向量来生成第一实体集合，然后对第一实体集合进行特征融合之后输入第一全连接层，第一全连接层输出的分类标签用于表示该次政务工作任务的线下工作量。

进一步地，还包括线上评估模块和总工作量评估模块，其中线上评估模块采集一个政务人员的一次政务工作任务的线上工作行为信息，然后来生成表征线上工作行为的线上特征向量。

一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体；对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征，将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量。

然后将第一拼接向量输入多层感知机，多层感知机的分类标签为线上工作量时间；将输入多层感知机的输出层的特征提取出来作为线上特征向量。

总工作量评估模块将线上特征向量与第一实体集合进行特征融合之后的特征向量进行拼接获得第二拼接向量，然后输入总工作量评估模型中，总工作量评估模型输出分类标签表示总工作量的评分或评级。

进一步地，还包括画像矢量模块和矢量索引模块，画像矢量模块提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量；政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称。

第一全连接层输出的分类标签有两个，分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录。

矢量索引模块对生成的所有画像对象的画像矢量进行聚类，将聚类中心作为码矢，将码矢所在的聚类簇内的画像矢量与其进行映射。

本发明的有益效果在于：本发明对图矩阵以及采样区域参数的学习来弥补对于实体之间缺失的关联关系，弥补具体的数据挖掘任务中对于所需的数据实体关系的缺失，能够以较低的隐藏层层数来达到较高的准确度性能，适用于政务大数据的数据挖掘处理。

附图说明

图1是本发明的一种用于大数据分析的数据挖掘***的模块示意图一。

图2是本发明的一种用于大数据分析的数据挖掘***的模块示意图二。

图3是本发明的一种用于大数据分析的数据挖掘***的模块示意图三。

图中：数据预处理模块101，图生成模块102，区域生成模块103，数据处理模块104，总工作量评估模块201，线上评估模块202，画像矢量模块301，矢量索引模块302。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其他例子中也可以进行组合。

如图1所示，一种用于大数据分析的数据挖掘***，包括：数据预处理模块101，基于政务数据识别政务数据中所包含的实体，基于实体之间的关系生成政务数据图谱，并为实体生成实体向量。

对于文本类型的政务数据，通过命名实体识别（NER）来识别实体，生成实体向量的方法可以是通过词频-逆文档频率模型（TF-IDF）、文档-向量模型（Doc2vec）等进行编码生成。

人工以及自助算法（Bootstrapping）等可以被用来判断实体之间的关系。

图生成模块102，基于政务数据图谱来生成图矩阵，图矩阵中的元素赋值为0或1，表示实体之间是否存在关系。

图矩阵的第i行第j列的元素表示为，/>为0表示第i和j个实体之间没有关系，为1表示第i和j个实体之间有关系。

区域生成模块103，将图矩阵均等划分为N个不重叠的子区域，每个子区域的大小为M*M个元素。

如果无法均等划分，则对图矩阵进行边缘填充，每次边缘填充完成后图矩阵的行列数均加1，边缘填充至图矩阵能够被均等划分为止。

，其中R表示图矩阵的元素总数，M为子区域的列数，/>表示向上取整。N为自定义的超参数，一般取值为100。

提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数，表示为，其中/>分别表示子区域的左下角的元素的行列数，/>分别表示子区域的右上角的元素的行列数。

按顺序拼接所有子区域的区域参数生成子区域向量。拼接的顺序是按照右上角的元素的行列数由小至大的顺序进行拼接。

行列数是元素在图矩阵中对应的行位置和列位置，例如第一行第一列的元素的行列数均为1。

数据处理模块104，其用于将图矩阵、子区域向量和实体向量输入数据编码模型，数据编码模型包括：第一线性层、第一采样层、第一隐藏层和第一全连接层。

第一线性层的计算公式如下：，其中，/>表示子区域向量，/>表示采样区域向量，/>表示第一线性层的权重参数，/>表示向上取整或四舍五入到整数，/>表示激活函数，选择正弦函数或双曲正切函数。

经过第一线性层的计算，获得在子区域的基础上缩放的采样区域。

采样区域的区域参数的定义与子区域的区域参数的定义相同；如果采样区域的区域参数为负值，则表示该采样区域的大小为0。

如果图矩阵曾被边缘填充过，则输入第一隐藏层的图矩阵删除了边缘填充的部分。

第一隐藏层的计算公式如下：，其中/>和/>分别表示实体向量和加权实体向量的张量矩阵，/>表示图矩阵与相同大小的单位矩阵的和，/>表示/>的度矩阵，/>表示第一隐藏层的权重矩阵，/>表示ReLU激活函数。

进一步地，第一隐藏层为多层结构，计算公式如下：，其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入，当l=1时/>表示实体向量的张量矩阵，当l＞1时/>表示第l层的第一隐藏层的输出，/>表示图矩阵与相同大小的单位矩阵的和，/>表示/>的度矩阵，/>表示第l+1层第一隐藏层的权重矩阵，/>表示ReLU激活函数。

上述的实体向量的张量矩阵的行向量表示一个实体向量，行向量的序号与图矩阵中的实体的序号一致。加权实体向量的张量矩阵的表示方式与实体向量的张量矩阵相同。

在进一步的实施例中，第一线性层包括多个输入通道，每个输入通道包括一个不同的实体排列顺序的图矩阵；具体的，图矩阵的实体排列顺序可以是随机的或人工排序的。

第一采样层对在每个图矩阵上分别进行对应的采样区域生成，对每个输入的图矩阵进行更新；第一隐藏层对应于每个图矩阵存在一个通道，每个通道输出一组加权实体向量，多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。

第一隐藏层的每个通道输入的实体向量是一致的，但是图矩阵是不同的。

数据编码模型采用神经网络模型的训练方法进行训练。

上述的一种用于大数据分析的数据挖掘***，通过对图矩阵以及采样区域参数的学习来产生其对于实体之间未知的关系的发现能力，弥补具体的数据挖掘任务中对于所需的数据实体关系的缺失，模型能够以较低的隐藏层层数来达到较高的准确度性能，适用于政务大数据的数据挖掘处理。

如果存在实体向量维度不一致的情况，可以在第一隐藏层之前设置一个以上的线性层，用于将实体向量映射到同一维度。

一种用于大数据分析的数据挖掘***还包括数据库，其用于存储政务数据、图矩阵等数据。

如图2所示，在一个具体的实施例中，一种用于大数据分析的数据挖掘***应用于政务人员工作量的衡量上，数据挖掘的目标是对政务人员的工作量进行评价，政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称等。

例如一次政务工作任务名称为审查某区企业年报，在通过***分配工作任务的政务平台上能够容易的获得这样的政务工作任务的内容。

对第一实体集合进行特征融合的一个方法是：，其中/>表示第一实体集合内的第e个加权实体向量，K表示第一实体集合内加权实体向量的总数。

例如分类标签对应于时间值，该时间值表示的是该次政务工作任务线下工作的时间；而该次政务工作任务的线上工作的时间是容易被统计的，可以通过该次政务工作任务的线上工作和线下工作的时间综合来作为该次政务工作任务的总工时。

本***克服的一个问题是一个政务工作任务可能是由多个政务人员完成的，需要考虑政务人员之间的协同以及政务部门之间的工作流程。

本实施例存在的一个问题是，仅通过总的工作时间来评价政务工作任务的工作量是有失偏颇的，在此基础上增加线上评估模块202和总工作量评估模块201，其中线上评估模块202采集一个政务人员的一次政务工作任务的线上工作行为信息，然后来生成表征线上工作行为的线上特征向量。

总工作量评估模块201将线上特征向量与第一实体集合进行特征融合之后的特征向量进行拼接获得第二拼接向量，然后输入总工作量评估模型中，总工作量评估模型输出分类标签表示总工作量的评分或评级。

例如评级分为大、中、小，分别对应一个总工作量评估模型的输出。

总工作量评估模型的类型为神经网络模型。

一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体等；对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征，将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量。

然后将第一拼接向量输入多层感知机（MLP），多层感知机的分类标签为线上工作量时间；将输入多层感知机的输出层的特征提取出来作为线上特征向量。

本实施例的基础上，有时我们需要评价一个政务人员一段时间内的工作量的总评价，提供的一种方法是，总工作量评估模块201的类型为循环神经网络（RNN），一个政务人员一段时间内进行的政务工作任务的第二拼接向量按照时间顺序依次输入总工作量评估模块201，最后一次输入后总工作量评估模块201输出分类标签表示一个政务人员一段时间内的总工作量的评分或评级。也即按照时间步进行输入的话，在最后一个时间步输出分类标签。

对于工作量评价的用途具体可以是调整政务人员的休息时间或对其绩效进行评价。

如图3所示，在另一个具体的实施例中，一种用于大数据分析的数据挖掘***应用于人物画像的建立上，传统的政务方面的人物画像的建立方式是结构化的存储对象的关联数据，结构化的存储容易导致人物画像的缺失，而且需要大量人工的辅助来搜索对应的数据，在本实施例中，数据挖掘的目标是人物画像的矢量化；政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称等。

对于人物轨迹的实体是以按时间排序的地址来进行记录的，因此采用语义编码的方式获得实体向量。

一种用于大数据分析的数据挖掘***包括画像矢量模块301，画像矢量模块301提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量。

第一全连接层输出的分类标签有两个，分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录；画像对象存在违法行为记录实际表示的是画像对象的加权实体向量输入到第一全连接层输出的结果。

一般来说政务大数据中记录的人物轨迹数据都是与画像对象的特定行为关联的信息，这样人物画像的建立方法能够获得同时表征行为与人像特征的矢量化表示，能够通过矢量化索引获取关联的人物画像的画像对象的信息，评估目标人物的行为类型。

一种用于大数据分析的数据挖掘***还包括矢量索引模块302，其对生成的所有画像对象的画像矢量进行聚类，将聚类中心作为码矢，将码矢所在的聚类簇内的画像矢量与其进行映射。

大数据更新之后的生成的新的画像对象的画像矢量与码矢进行相似度计算来匹配相似度最大的码矢作为邻近码矢，提取邻近码矢所映射的画像矢量对应的画像对象的信息作为索引的结果，或者直接将画像矢量作为索引的结果。

上面对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，还可做出很多形式，均属于本实施例的保护之内。

Claims

1.一种用于大数据分析的数据挖掘***，其特征在于，包括：数据预处理模块，基于政务数据识别政务数据中所包含的实体，基于实体之间的关系生成政务数据图谱，并为实体生成实体向量；图生成模块，基于政务数据图谱来生成图矩阵，图矩阵中的元素赋值为0或1，表示实体之间是否存在关系；区域生成模块，将图矩阵均等划分为N个不重叠的子区域，每个子区域的大小为M*M个元素；

提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数，表示为，其中/>分别表示子区域的左下角的元素的行列数，/>分别表示子区域的右上角的元素的行列数；按顺序拼接所有子区域的区域参数生成子区域向量；数据处理模块，其用于将图矩阵、子区域向量和实体向量输入数据编码模型，数据编码模型包括：第一线性层、第一采样层、第一隐藏层和第一全连接层；

第一线性层的计算公式如下：，其中/>表示子区域向量，表示采样区域向量，/>表示第一线性层的权重参数，/>表示向上取整或四舍五入到整数，/>表示激活函数，选择正弦函数或双曲正切函数；

采样区域向量输入第一采样层，第一采样层将采样区域向量还原为采样区域的区域参数，在图矩阵内生成对应的采样区域，将采样区域对应的图矩阵内的空元素填充为1；

2.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，图矩阵的第i行第j列的元素表示为，/>为0表示第i和j个实体之间没有关系，/>为1表示第i和j个实体之间有关系。

3.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，如果图矩阵无法均等划分，则对图矩阵进行边缘填充，每次边缘填充完成后图矩阵的行列数加1，边缘填充至图矩阵能够被均等划分为止。

4.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，采样区域的区域参数的定义与子区域的区域参数的定义相同；如果采样区域的区域参数为负值，则表示该采样区域的大小为0。

5.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，第一隐藏层的计算公式如下：，其中/>和/>分别表示实体向量和加权实体向量的张量矩阵，/>表示图矩阵与单位矩阵的和，/>表示/>的度矩阵，/>表示第一隐藏层的权重矩阵，/>表示ReLU激活函数。

6.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，第一隐藏层为多层结构，计算公式如下：，其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入，当l=1时/>表示实体向量的张量矩阵，当l＞1时/>表示第l层的第一隐藏层的输出，/>表示图矩阵与单位矩阵的和，/>表示/>的度矩阵，/>表示第l+1层第一隐藏层的权重矩阵，/>表示ReLU激活函数。

7.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，第一线性层包括多个输入通道，每个输入通道包括一个不同的实体排列顺序的图矩阵；第一采样层对在每个图矩阵上分别进行对应的采样区域生成，对每个输入的图矩阵进行更新；第一隐藏层对应于每个图矩阵存在一个通道，每个通道输出一组加权实体向量，多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。

8.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称；

9.根据权利要求8所述的一种用于大数据分析的数据挖掘***，其特征在于，还包括线上评估模块和总工作量评估模块，其中线上评估模块采集一个政务人员的一次政务工作任务的线上工作行为信息，然后来生成表征线上工作行为的线上特征向量；

一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体；对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征，将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量；

然后将第一拼接向量输入多层感知机，多层感知机的分类标签为线上工作量时间；将输入多层感知机的输出层的特征提取出来作为线上特征向量；

10.根据权利要求1所述的一种用于大数据分析的数据挖掘***，其特征在于，还包括画像矢量模块和矢量索引模块，画像矢量模块提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量；政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称；

第一全连接层输出的分类标签有两个，分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录；