CN116578613B - 一种用于大数据分析的数据挖掘*** - Google Patents

一种用于大数据分析的数据挖掘*** Download PDF

Info

Publication number
CN116578613B
CN116578613B CN202310855939.5A CN202310855939A CN116578613B CN 116578613 B CN116578613 B CN 116578613B CN 202310855939 A CN202310855939 A CN 202310855939A CN 116578613 B CN116578613 B CN 116578613B
Authority
CN
China
Prior art keywords
vector
government
layer
entity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310855939.5A
Other languages
English (en)
Other versions
CN116578613A (zh
Inventor
金萍
葛浩然
宗瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Shangchuang Information Technology Co ltd
West Anhui University
Original Assignee
Hefei Shangchuang Information Technology Co ltd
West Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Shangchuang Information Technology Co ltd, West Anhui University filed Critical Hefei Shangchuang Information Technology Co ltd
Priority to CN202310855939.5A priority Critical patent/CN116578613B/zh
Publication of CN116578613A publication Critical patent/CN116578613A/zh
Application granted granted Critical
Publication of CN116578613B publication Critical patent/CN116578613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种用于大数据分析的数据挖掘***,包括:数据预处理模块,基于政务数据识别政务数据中所包含的实体,基于实体之间的关系生成政务数据图谱,并为实体生成实体向量;图生成模块,基于政务数据图谱来生成图矩阵;区域生成模块,将图矩阵均等划分为N个不重叠的子区域;按顺序拼接所有子区域的区域参数生成子区域向量;数据处理模块,其用于将图矩阵、子区域向量和实体向量输入数据编码模型,输出与数据挖掘目标有关的分类标签;本发明对图矩阵以及采样区域参数的学习来弥补对于实体之间缺失的关联关系,适用于政务大数据的数据挖掘处理。

Description

一种用于大数据分析的数据挖掘***
技术领域
本发明涉及大数据技术领域,更具体地说,它涉及一种用于大数据分析的数据挖掘***。
背景技术
政务大数据指的是政府部门采集、整合、分析、利用的海量数据。政务大数据的特点主要有以下几个方面:一、规模大。政务大数据以TB甚至PB为单位进行管理,数据规模远远超过普通企业的数据。二、数据复杂多样。政务大数据包含不同格式的数据,如结构化数据、非结构化数据、半结构化数据等。三、多维关联。政务大数据还有多维度关联的特点,能够通过分析不同维度之间存在的关联,发现新的知识和规律。政务大数据来源的政府部门存在复杂的组织关系,因此政务大数据之间的关联关系通过基于规则的方法或一般的机器学习的方法进行发现的效果较差,应用于具体的数据挖掘任务时难以完成目标。
发明内容
本发明提供一种用于大数据分析的数据挖掘***,解决相关技术中政务大数据之间的关联关系通过基于规则的方法或一般的机器学习的方法进行发现的效果较差的技术问题。
本发明提供了一种用于大数据分析的数据挖掘***,包括:数据预处理模块,基于政务数据识别政务数据中所包含的实体,基于实体之间的关系生成政务数据图谱,并为实体生成实体向量;图生成模块,基于政务数据图谱来生成图矩阵,图矩阵中的元素赋值为0或1,表示实体之间是否存在关系;区域生成模块,将图矩阵均等划分为N个不重叠的子区域,每个子区域的大小为M*M个元素。
提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数,表示为,其中/>分别表示子区域的左下角的元素的行列数,/>分别表示子区域的右上角的元素的行列数;按顺序拼接所有子区域的区域参数生成子区域向量;数据处理模块,其用于将图矩阵、子区域向量和实体向量输入数据编码模型,数据编码模型包括:第一线性层、第一采样层、第一隐藏层和第一全连接层。
第一线性层的计算公式如下:,其中/>表示子区域向量,/>表示采样区域向量,/>表示第一线性层的权重参数,/>表示向上取整或四舍五入到整数,/>表示激活函数,选择正弦函数或双曲正切函数。
采样区域向量输入第一采样层,第一采样层将采样区域向量还原为采样区域的区域参数,在图矩阵内生成对应的采样区域,将采样区域对应的图矩阵内的空元素填充为1。
将第一采样层更新之后的图矩阵和实体向量输入第一隐藏层,第一隐藏层对实体向量进行更新获得加权实体向量,图矩阵和加权实体向量输入第一全连接层,第一全连接层输出与数据挖掘目标有关的分类标签。
进一步地,图矩阵的第i行第j列的元素表示为,/>为0表示第i和j个实体之间没有关系,/>为1表示第i和j个实体之间有关系。
进一步地,如果图矩阵无法均等划分,则对图矩阵进行边缘填充,每次边缘填充完成后图矩阵的行列数加1,边缘填充至图矩阵能够被均等划分为止。
进一步地,采样区域的区域参数的定义与子区域的区域参数的定义相同;如果采样区域的区域参数为负值,则表示该采样区域的大小为0。
进一步地,第一隐藏层的计算公式如下:,其中/>和/>分别表示实体向量和加权实体向量的张量矩阵,/>表示图矩阵与单位矩阵的和,/>表示/>的度矩阵,/>表示第一隐藏层的权重矩阵,/>表示ReLU激活函数。
进一步地,第一隐藏层为多层结构,计算公式如下:,其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入,当l=1时/>表示实体向量的张量矩阵,当l>1时/>表示第l层的第一隐藏层的输出,/>表示图矩阵与单位矩阵的和,/>表示/>的度矩阵,/>表示第l+1层第一隐藏层的权重矩阵。
进一步地,第一线性层包括多个输入通道,每个输入通道包括一个不同的实体排列顺序的图矩阵;第一采样层对在每个图矩阵上分别进行对应的采样区域生成,对每个输入的图矩阵进行更新;第一隐藏层对应于每个图矩阵存在一个通道,每个通道输出一组加权实体向量,多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。
进一步地,政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称等。
在第一全连接层之前设置的第二采样层,第二采样层从一个政务人员的一次政务工作任务的记录中提取实体,从加权实体向量中提取对应于从该次政务工作任务的记录中提取的实体的加权实体向量来生成第一实体集合,然后对第一实体集合进行特征融合之后输入第一全连接层,第一全连接层输出的分类标签用于表示该次政务工作任务的线下工作量。
进一步地,还包括线上评估模块和总工作量评估模块,其中线上评估模块采集一个政务人员的一次政务工作任务的线上工作行为信息,然后来生成表征线上工作行为的线上特征向量。
一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体;对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征,将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量。
然后将第一拼接向量输入多层感知机,多层感知机的分类标签为线上工作量时间;将输入多层感知机的输出层的特征提取出来作为线上特征向量。
总工作量评估模块将线上特征向量与第一实体集合进行特征融合之后的特征向量进行拼接获得第二拼接向量,然后输入总工作量评估模型中,总工作量评估模型输出分类标签表示总工作量的评分或评级。
进一步地,还包括画像矢量模块和矢量索引模块,画像矢量模块提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量;政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称。
第一全连接层输出的分类标签有两个,分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录。
矢量索引模块对生成的所有画像对象的画像矢量进行聚类,将聚类中心作为码矢,将码矢所在的聚类簇内的画像矢量与其进行映射。
本发明的有益效果在于:本发明对图矩阵以及采样区域参数的学习来弥补对于实体之间缺失的关联关系,弥补具体的数据挖掘任务中对于所需的数据实体关系的缺失,能够以较低的隐藏层层数来达到较高的准确度性能,适用于政务大数据的数据挖掘处理。
附图说明
图1是本发明的一种用于大数据分析的数据挖掘***的模块示意图一。
图2是本发明的一种用于大数据分析的数据挖掘***的模块示意图二。
图3是本发明的一种用于大数据分析的数据挖掘***的模块示意图三。
图中:数据预处理模块101,图生成模块102,区域生成模块103,数据处理模块104,总工作量评估模块201,线上评估模块202,画像矢量模块301,矢量索引模块302。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
如图1所示,一种用于大数据分析的数据挖掘***,包括:数据预处理模块101,基于政务数据识别政务数据中所包含的实体,基于实体之间的关系生成政务数据图谱,并为实体生成实体向量。
对于文本类型的政务数据,通过命名实体识别(NER)来识别实体,生成实体向量的方法可以是通过词频-逆文档频率模型(TF-IDF)、文档-向量模型(Doc2vec)等进行编码生成。
人工以及自助算法(Bootstrapping)等可以被用来判断实体之间的关系。
图生成模块102,基于政务数据图谱来生成图矩阵,图矩阵中的元素赋值为0或1,表示实体之间是否存在关系。
图矩阵的第i行第j列的元素表示为,/>为0表示第i和j个实体之间没有关系,为1表示第i和j个实体之间有关系。
区域生成模块103,将图矩阵均等划分为N个不重叠的子区域,每个子区域的大小为M*M个元素。
如果无法均等划分,则对图矩阵进行边缘填充,每次边缘填充完成后图矩阵的行列数均加1,边缘填充至图矩阵能够被均等划分为止。
,其中R表示图矩阵的元素总数,M为子区域的列数,/>表示向上取整。N为自定义的超参数,一般取值为100。
提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数,表示为,其中/>分别表示子区域的左下角的元素的行列数,/>分别表示子区域的右上角的元素的行列数。
按顺序拼接所有子区域的区域参数生成子区域向量。拼接的顺序是按照右上角的元素的行列数由小至大的顺序进行拼接。
行列数是元素在图矩阵中对应的行位置和列位置,例如第一行第一列的元素的行列数均为1。
数据处理模块104,其用于将图矩阵、子区域向量和实体向量输入数据编码模型,数据编码模型包括:第一线性层、第一采样层、第一隐藏层和第一全连接层。
第一线性层的计算公式如下:,其中,/>表示子区域向量,/>表示采样区域向量,/>表示第一线性层的权重参数,/>表示向上取整或四舍五入到整数,/>表示激活函数,选择正弦函数或双曲正切函数。
经过第一线性层的计算,获得在子区域的基础上缩放的采样区域。
采样区域向量输入第一采样层,第一采样层将采样区域向量还原为采样区域的区域参数,在图矩阵内生成对应的采样区域,将采样区域对应的图矩阵内的空元素填充为1。
采样区域的区域参数的定义与子区域的区域参数的定义相同;如果采样区域的区域参数为负值,则表示该采样区域的大小为0。
将第一采样层更新之后的图矩阵和实体向量输入第一隐藏层,第一隐藏层对实体向量进行更新获得加权实体向量,图矩阵和加权实体向量输入第一全连接层,第一全连接层输出与数据挖掘目标有关的分类标签。
如果图矩阵曾被边缘填充过,则输入第一隐藏层的图矩阵删除了边缘填充的部分。
第一隐藏层的计算公式如下:,其中/>和/>分别表示实体向量和加权实体向量的张量矩阵,/>表示图矩阵与相同大小的单位矩阵的和,/>表示/>的度矩阵,/>表示第一隐藏层的权重矩阵,/>表示ReLU激活函数。
进一步地,第一隐藏层为多层结构,计算公式如下:,其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入,当l=1时/>表示实体向量的张量矩阵,当l>1时/>表示第l层的第一隐藏层的输出,/>表示图矩阵与相同大小的单位矩阵的和,/>表示/>的度矩阵,/>表示第l+1层第一隐藏层的权重矩阵,/>表示ReLU激活函数。
上述的实体向量的张量矩阵的行向量表示一个实体向量,行向量的序号与图矩阵中的实体的序号一致。加权实体向量的张量矩阵的表示方式与实体向量的张量矩阵相同。
在进一步的实施例中,第一线性层包括多个输入通道,每个输入通道包括一个不同的实体排列顺序的图矩阵;具体的,图矩阵的实体排列顺序可以是随机的或人工排序的。
第一采样层对在每个图矩阵上分别进行对应的采样区域生成,对每个输入的图矩阵进行更新;第一隐藏层对应于每个图矩阵存在一个通道,每个通道输出一组加权实体向量,多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。
第一隐藏层的每个通道输入的实体向量是一致的,但是图矩阵是不同的。
数据编码模型采用神经网络模型的训练方法进行训练。
上述的一种用于大数据分析的数据挖掘***,通过对图矩阵以及采样区域参数的学习来产生其对于实体之间未知的关系的发现能力,弥补具体的数据挖掘任务中对于所需的数据实体关系的缺失,模型能够以较低的隐藏层层数来达到较高的准确度性能,适用于政务大数据的数据挖掘处理。
如果存在实体向量维度不一致的情况,可以在第一隐藏层之前设置一个以上的线性层,用于将实体向量映射到同一维度。
一种用于大数据分析的数据挖掘***还包括数据库,其用于存储政务数据、图矩阵等数据。
如图2所示,在一个具体的实施例中,一种用于大数据分析的数据挖掘***应用于政务人员工作量的衡量上,数据挖掘的目标是对政务人员的工作量进行评价,政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称等。
例如一次政务工作任务名称为审查某区企业年报,在通过***分配工作任务的政务平台上能够容易的获得这样的政务工作任务的内容。
在第一全连接层之前设置的第二采样层,第二采样层从一个政务人员的一次政务工作任务的记录中提取实体,从加权实体向量中提取对应于从该次政务工作任务的记录中提取的实体的加权实体向量来生成第一实体集合,然后对第一实体集合进行特征融合之后输入第一全连接层,第一全连接层输出的分类标签用于表示该次政务工作任务的线下工作量。
对第一实体集合进行特征融合的一个方法是:,其中/>表示第一实体集合内的第e个加权实体向量,K表示第一实体集合内加权实体向量的总数。
例如分类标签对应于时间值,该时间值表示的是该次政务工作任务线下工作的时间;而该次政务工作任务的线上工作的时间是容易被统计的,可以通过该次政务工作任务的线上工作和线下工作的时间综合来作为该次政务工作任务的总工时。
本***克服的一个问题是一个政务工作任务可能是由多个政务人员完成的,需要考虑政务人员之间的协同以及政务部门之间的工作流程。
本实施例存在的一个问题是,仅通过总的工作时间来评价政务工作任务的工作量是有失偏颇的,在此基础上增加线上评估模块202和总工作量评估模块201,其中线上评估模块202采集一个政务人员的一次政务工作任务的线上工作行为信息,然后来生成表征线上工作行为的线上特征向量。
总工作量评估模块201将线上特征向量与第一实体集合进行特征融合之后的特征向量进行拼接获得第二拼接向量,然后输入总工作量评估模型中,总工作量评估模型输出分类标签表示总工作量的评分或评级。
例如评级分为大、中、小,分别对应一个总工作量评估模型的输出。
总工作量评估模型的类型为神经网络模型。
一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体等;对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征,将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量。
然后将第一拼接向量输入多层感知机(MLP),多层感知机的分类标签为线上工作量时间;将输入多层感知机的输出层的特征提取出来作为线上特征向量。
本实施例的基础上,有时我们需要评价一个政务人员一段时间内的工作量的总评价,提供的一种方法是,总工作量评估模块201的类型为循环神经网络(RNN),一个政务人员一段时间内进行的政务工作任务的第二拼接向量按照时间顺序依次输入总工作量评估模块201,最后一次输入后总工作量评估模块201输出分类标签表示一个政务人员一段时间内的总工作量的评分或评级。也即按照时间步进行输入的话,在最后一个时间步输出分类标签。
对于工作量评价的用途具体可以是调整政务人员的休息时间或对其绩效进行评价。
如图3所示,在另一个具体的实施例中,一种用于大数据分析的数据挖掘***应用于人物画像的建立上,传统的政务方面的人物画像的建立方式是结构化的存储对象的关联数据,结构化的存储容易导致人物画像的缺失,而且需要大量人工的辅助来搜索对应的数据,在本实施例中,数据挖掘的目标是人物画像的矢量化;政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称等。
对于人物轨迹的实体是以按时间排序的地址来进行记录的,因此采用语义编码的方式获得实体向量。
一种用于大数据分析的数据挖掘***包括画像矢量模块301,画像矢量模块301提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量。
第一全连接层输出的分类标签有两个,分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录;画像对象存在违法行为记录实际表示的是画像对象的加权实体向量输入到第一全连接层输出的结果。
一般来说政务大数据中记录的人物轨迹数据都是与画像对象的特定行为关联的信息,这样人物画像的建立方法能够获得同时表征行为与人像特征的矢量化表示,能够通过矢量化索引获取关联的人物画像的画像对象的信息,评估目标人物的行为类型。
一种用于大数据分析的数据挖掘***还包括矢量索引模块302,其对生成的所有画像对象的画像矢量进行聚类,将聚类中心作为码矢,将码矢所在的聚类簇内的画像矢量与其进行映射。
大数据更新之后的生成的新的画像对象的画像矢量与码矢进行相似度计算来匹配相似度最大的码矢作为邻近码矢,提取邻近码矢所映射的画像矢量对应的画像对象的信息作为索引的结果,或者直接将画像矢量作为索引的结果。
上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。

Claims (10)

1.一种用于大数据分析的数据挖掘***,其特征在于,包括:数据预处理模块,基于政务数据识别政务数据中所包含的实体,基于实体之间的关系生成政务数据图谱,并为实体生成实体向量;图生成模块,基于政务数据图谱来生成图矩阵,图矩阵中的元素赋值为0或1,表示实体之间是否存在关系;区域生成模块,将图矩阵均等划分为N个不重叠的子区域,每个子区域的大小为M*M个元素;
提取划分的子区域的左下角和右上角的元素的行列数生成一个区域参数,表示为,其中/>分别表示子区域的左下角的元素的行列数,/>分别表示子区域的右上角的元素的行列数;按顺序拼接所有子区域的区域参数生成子区域向量;数据处理模块,其用于将图矩阵、子区域向量和实体向量输入数据编码模型,数据编码模型包括:第一线性层、第一采样层、第一隐藏层和第一全连接层;
第一线性层的计算公式如下:,其中/>表示子区域向量,表示采样区域向量,/>表示第一线性层的权重参数,/>表示向上取整或四舍五入到整数,/>表示激活函数,选择正弦函数或双曲正切函数;
采样区域向量输入第一采样层,第一采样层将采样区域向量还原为采样区域的区域参数,在图矩阵内生成对应的采样区域,将采样区域对应的图矩阵内的空元素填充为1;
将第一采样层更新之后的图矩阵和实体向量输入第一隐藏层,第一隐藏层对实体向量进行更新获得加权实体向量,图矩阵和加权实体向量输入第一全连接层,第一全连接层输出与数据挖掘目标有关的分类标签。
2.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,图矩阵的第i行第j列的元素表示为,/>为0表示第i和j个实体之间没有关系,/>为1表示第i和j个实体之间有关系。
3.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,如果图矩阵无法均等划分,则对图矩阵进行边缘填充,每次边缘填充完成后图矩阵的行列数加1,边缘填充至图矩阵能够被均等划分为止。
4.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,采样区域的区域参数的定义与子区域的区域参数的定义相同;如果采样区域的区域参数为负值,则表示该采样区域的大小为0。
5.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,第一隐藏层的计算公式如下:,其中/>和/>分别表示实体向量和加权实体向量的张量矩阵,/>表示图矩阵与单位矩阵的和,/>表示/>的度矩阵,/>表示第一隐藏层的权重矩阵,/>表示ReLU激活函数。
6.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,第一隐藏层为多层结构,计算公式如下:,其中/>和/>分别表示第l+1层的第一隐藏层的输出和输入,当l=1时/>表示实体向量的张量矩阵,当l>1时/>表示第l层的第一隐藏层的输出,/>表示图矩阵与单位矩阵的和,/>表示/>的度矩阵,/>表示第l+1层第一隐藏层的权重矩阵,/>表示ReLU激活函数。
7.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,第一线性层包括多个输入通道,每个输入通道包括一个不同的实体排列顺序的图矩阵;第一采样层对在每个图矩阵上分别进行对应的采样区域生成,对每个输入的图矩阵进行更新;第一隐藏层对应于每个图矩阵存在一个通道,每个通道输出一组加权实体向量,多个通道的加权实体向量相加之后再除以通道数之后作为输入全连接层的加权实体向量。
8.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,政务数据识别政务数据中所包含的实体包括政务人员岗位名称、政务机构名称、政务机构内设机构名称、政务工作任务名称、政策文件名称;
在第一全连接层之前设置的第二采样层,第二采样层从一个政务人员的一次政务工作任务的记录中提取实体,从加权实体向量中提取对应于从该次政务工作任务的记录中提取的实体的加权实体向量来生成第一实体集合,然后对第一实体集合进行特征融合之后输入第一全连接层,第一全连接层输出的分类标签用于表示该次政务工作任务的线下工作量。
9.根据权利要求8所述的一种用于大数据分析的数据挖掘***,其特征在于,还包括线上评估模块和总工作量评估模块,其中线上评估模块采集一个政务人员的一次政务工作任务的线上工作行为信息,然后来生成表征线上工作行为的线上特征向量;
一个政务人员的一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量、该政务工作任务相关的政策文件名称实体;对一次政务工作任务的线上工作行为信息包括浏览的与该政务工作任务相关的页面的数量、在与该政务工作任务相关的页面上输入的文字数量进行编码获得页面特征和文字特征,将页面特征、文字特征和政务工作任务相关的政策文件名称实体的实体向量进行拼接获得第一拼接向量;
然后将第一拼接向量输入多层感知机,多层感知机的分类标签为线上工作量时间;将输入多层感知机的输出层的特征提取出来作为线上特征向量;
总工作量评估模块将线上特征向量与第一实体集合进行特征融合之后的特征向量进行拼接获得第二拼接向量,然后输入总工作量评估模型中,总工作量评估模型输出分类标签表示总工作量的评分或评级。
10.根据权利要求1所述的一种用于大数据分析的数据挖掘***,其特征在于,还包括画像矢量模块和矢量索引模块,画像矢量模块提取第一隐藏层输出的画像对象名称的加权实体向量作为该画像对象的画像矢量;政务数据识别政务数据中所包含的实体包括照片图像、画像对象名称、人物轨迹、政策文件名称、政务机构名称、政务人员岗位名称;
第一全连接层输出的分类标签有两个,分别对应于画像对象存在违法行为记录和画像对象不存在违法行为记录;
矢量索引模块对生成的所有画像对象的画像矢量进行聚类,将聚类中心作为码矢,将码矢所在的聚类簇内的画像矢量与其进行映射。
CN202310855939.5A 2023-07-13 2023-07-13 一种用于大数据分析的数据挖掘*** Active CN116578613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310855939.5A CN116578613B (zh) 2023-07-13 2023-07-13 一种用于大数据分析的数据挖掘***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310855939.5A CN116578613B (zh) 2023-07-13 2023-07-13 一种用于大数据分析的数据挖掘***

Publications (2)

Publication Number Publication Date
CN116578613A CN116578613A (zh) 2023-08-11
CN116578613B true CN116578613B (zh) 2023-09-08

Family

ID=87541719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310855939.5A Active CN116578613B (zh) 2023-07-13 2023-07-13 一种用于大数据分析的数据挖掘***

Country Status (1)

Country Link
CN (1) CN116578613B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798385A (zh) * 2017-12-08 2018-03-13 电子科技大学 基于块张量分解的循环神经网络稀疏连接方法
CN111405585A (zh) * 2020-03-19 2020-07-10 北京联合大学 一种基于卷积神经网络的邻区关系预测方法
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习***及方法
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及***
WO2022016561A1 (zh) * 2020-07-22 2022-01-27 江苏宏创信息科技有限公司 一种基于大数据的政策画像ai建模***及方法
CN116226238A (zh) * 2023-05-06 2023-06-06 合肥尚创信息技术有限公司 一种多维异构大数据的挖掘方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337481A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Complex embeddings for simple link prediction
CN113393025A (zh) * 2021-06-07 2021-09-14 浙江大学 一种基于Informer模型编码结构的非侵入式负荷分解方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798385A (zh) * 2017-12-08 2018-03-13 电子科技大学 基于块张量分解的循环神经网络稀疏连接方法
CN111405585A (zh) * 2020-03-19 2020-07-10 北京联合大学 一种基于卷积神经网络的邻区关系预测方法
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习***及方法
CN112000801A (zh) * 2020-07-09 2020-11-27 山东师范大学 基于机器学习的政务文本分类、热点问题挖掘方法及***
WO2022016561A1 (zh) * 2020-07-22 2022-01-27 江苏宏创信息科技有限公司 一种基于大数据的政策画像ai建模***及方法
CN116226238A (zh) * 2023-05-06 2023-06-06 合肥尚创信息技术有限公司 一种多维异构大数据的挖掘方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BERT-BLSTM-CRF的政务领域命名实体识别方法;杨春明;魏成志;张晖;赵旭剑;李波;;西南科技大学学报;35(03);86-91 *

Also Published As

Publication number Publication date
CN116578613A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
US10599623B2 (en) Matching multidimensional projections of functional space
US11151096B2 (en) Dynamic syntactic affinity group formation in a high-dimensional functional information system
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
JP2018147351A (ja) 知識モデル構築システム及び知識モデル構築方法
CN112069329A (zh) 文本语料的处理方法、装置、设备及存储介质
Chopra et al. Data Science with Python: Combine Python with machine learning principles to discover hidden patterns in raw data
Walek et al. Data mining of job requirements in online job advertisements using machine learning and SDCA logistic regression
CN116578613B (zh) 一种用于大数据分析的数据挖掘***
Hamad et al. Sentiment analysis of restaurant reviews in social media using naïve bayes
CN112506930B (zh) 一种基于机器学习技术的数据洞察***
CN114612246A (zh) 对象集合识别方法、装置、计算机设备及存储介质
CN113240325A (zh) 数据处理方法、装置、设备及存储介质
Ghosh et al. Understanding machine learning
Sultana et al. An efficient deep learning method to predict students performance
Mashagba et al. Using Gradient Boosting Algorithms in Predicting Student Academic Performance
Díaz de la Paz et al. Weights Estimation in the Completeness Measurement of Bibliographic Metadata
Hilmarsson Using machine learning for predicting the likelihood of upper secondary school student dropout
Mouli et al. Sentiment analysis to determine employee job satisfaction using machine learning techniques
Shanmugarajah et al. WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach
Kumar ACM Venue Recommendation System
Jahr Creating an Agglomerative Clustering Approach Using GDELT
Nilsson Artificial intelligence application for feature extraction in annual reports: AI-pipeline for feature extraction in Swedish balance sheets from scanned annual reports
Kodur Kumar ACM Venue Recommender System
Tekin A comparison of LightGBM and perceptron for classifying the cause of salary differences between workgroups: Comparative study for classifying the reason for salary difference with different machine learning algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant