CN112800083A - 一种面向政府决策的政务大数据分析方法及设备 - Google Patents
一种面向政府决策的政务大数据分析方法及设备 Download PDFInfo
- Publication number
- CN112800083A CN112800083A CN202110204049.9A CN202110204049A CN112800083A CN 112800083 A CN112800083 A CN 112800083A CN 202110204049 A CN202110204049 A CN 202110204049A CN 112800083 A CN112800083 A CN 112800083A
- Authority
- CN
- China
- Prior art keywords
- data
- government
- article
- government affair
- oriented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000007405 data analysis Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 230000009193 crawling Effects 0.000 claims abstract description 18
- 238000007418 data mining Methods 0.000 claims abstract description 16
- 238000005065 mining Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005553 drilling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种面向政府决策的政务大数据分析方法及设备,用以解决政务数据不能得到有效的整合、分析和应用的技术问题。方法包括:确定与政务数据相关的目标数据源,并配置爬取规则,对目标数据源进行数据爬取;对爬取到的数据进行批量清洗,并存储至数据仓库中;根据与政务数据相关的层级划分指标和分类汇总指标,构建多维数据挖掘模型;基于多维数据挖掘模型,对数据仓库中的数据进行多维挖掘和分析,并对分析结果进行展示。本申请通过上述方法能够获取可利用的政务数据,并对其进行整合、分析和挖掘,不仅提高了政务数据的利用率,同时还实现了对政务数据深层次的分析处理,从而为政府部门的决策工作提供价值性参考。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种面向政府决策的政务大数据分析方法及设备。
背景技术
随着计算机存储能力的提升和复杂算法的发展,近年来的数据量成指数型增长。大数据的整合分析在公共交通、公共安全、社会管理等领域已经进行了一定的应用,推动了社会科学与自然科学等跨科学研究的发展。而我国信息数据资源80%以上掌握在各级政府部门手里,这些政府数据却没有得到进一步的规划和利用,造成了资源的浪费。
因此,如何将传统的统计技术与计算机技术相结合,实现对政务数据的整合、分析和挖掘,并应用至政府相关部门的决策工作中去,已经成为一个亟待解决的问题。
发明内容
本申请实施例提供了一种面向政府决策的政务大数据分析方法及设备,用以解决政务数据不能得到有效的分析、挖掘和应用,从而造成数据资源浪费的技术问题。
一方面,本申请实施例提供了一种面向政府决策的政务大数据分析方法,包括:确定与政务数据相关的目标数据源,并配置爬取规则,对目标数据源进行数据爬取;对爬取到的数据进行批量清洗,并存储至数据仓库中;根据与政务数据相关的层级划分指标和分类汇总指标,构建多维数据挖掘模型;基于多维数据挖掘模型,对数据仓库中的数据进行多维挖掘和分析,并对分析结果进行展示。
在本申请的一种实现方式中,对爬取到的数据进行批量清洗之前,方法还包括:对目标数据源进行随机抽样,并与爬取到的数据进行匹配校验;在爬取到的数据通过校验的情况下,将数据存储至本地数据库中。
在本申请的一种实现方式中,对爬取到的数据进行批量清洗,具体包括:从本地数据库中抽取爬取到的数据;对爬取到的数据进行空值填充和重复值过滤;将过滤后的数据统一转换为预设格式,并对存在转换的数据进行再过滤。
在本申请的一种实现方式中,对分析结果进行展示,具体包括:确定层级划分指标中指定的行政区域级别、时间,以及分类汇总指标中指定的类别;根据预设展示形式,对时间内相应行政区域对应的汇总指标的政务数据分别进行展示;其中,预设展示形式至少包括以下任意一项:折线图、柱形图、扇形图、表格。
在本申请的一种实现方式中,对数据仓库中的数据进行多维挖掘和分析,具体包括:根据行政区域级别,对时间内相应行政区域对应的汇总指标的政务数据,以及时间内相应的指定的类别的政务数据进行下钻查询;和/或添加指定关键字,并通过关键字进行自定义查询;和/或确定层级划分指标中指定的行政区域、时间和分类汇总指标中指定的类别,进行组合查询。
在本申请的一种实现方式中,方法还包括:根据数据仓库中的数据对应的元数据,确定待建立的索引;以数据包为单位构建列存储结构,建立数据仓库对应的索引。
在本申请的一种实现方式中,爬取到的数据包括文章;方法还包括:根据用户的地理位置和预设距离阈值,确定地理位置范围;根据地理位置范围内各文章的点击量和收藏量,计算文章对应的推送系数;根据文章的推送系数,向用户推送文章。
在本申请的一种实现方式中,方法还包括:确定文章类型对应的预设关键词;其中,文章类型包括领导讲话、政策法规、研究报告、实践创新;对待发布的文章进行分词处理,并将分词结果与预设关键词进行对比,计算相似度;在相似度不小于第一预设阈值的情况下,将待发布的文章划分于相应的文章类型下;将待发布的文章与相应的文章类型下的其他文章进行相似度对比,确定相似度不小于第二预设阈值。
在本申请的一种实现方式中,方法还包括:针对文章类型中包含的文章,确定用户划分的该文章对应的收藏类型;将收藏类型与该文章所属的文章类型进行比较,更正该文章所属的文章类型。
另一方面,本申请实施例还提供了一种面向政府决策的政务大数据分析设备,设备包括:处理器;及存储器,其上存储有可执行代码,当可执行代码被执行时,使得处理器执行如上述的一种面向政府决策的政务大数据分析方法。
本申请实施例提供的一种面向政府决策的政务大数据分析方法及设备,至少包括以下有益效果:从网络上爬取政务数据并对其进行分析处理,实现了对现有政务数据的有效利用;对政务数据进行多维数据挖掘和分析,并将分析结果以用户友好的方式展示出来,实现了对政务数据的多维度、全方位的综合分析,能够为政府部门的决策工作提供有价值的参考。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种面向政府决策的政务大数据分析方法流程图;
图2为本申请实施例提供的一种分类汇总指标示意图;
图3为本申请实施例提供的一种预设展示形式示意图;
图4为本申请实施例提供的一种下钻查询方式示意图;
图5为本申请实施例提供的另一种下钻查询方式示意图;
图6为本申请实施例提供的一种自定义查询方式示意图;
图7为本申请实施例提供的一种组合查询方式示意图;
图8为本申请实施例提供的一种面向政府决策的政务大数据分析设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种面向政府决策的政务大数据分析方法及设备,用以解决现有的政务数据得不到有效的规划和利用,不能够满足政府实际工作要求,从而导致了数据资源的浪费的技术问题。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种面向政府决策的政务大数据分析方法流程图。如图1所示,本申请实施例提供的一种面向政府决策的政务大数据分析方法主要包括以下步骤:
S101、确定与政务数据相关的目标数据源,并配置爬取规则,对目标数据源进行数据爬取。
搜索引擎搜索与政务数据相关的网站、网页、平台,并将其作为目标数据源,然后,根据实际需求确定爬取规则,并通过爬虫爬取目标数据源中的政务数据。其中,与政务数据相关的目标数据源包括但不限于各类政府门户网站、政务资讯网站、数据公示网站。
在一种可能实现的方式中,服务器在确定目标数据源后,可通过可视化界面配置爬取规则,例如,在爬取文章时,爬取规则包括文章标题、文章来源、文章关键字、发布时间及文章分类。这样,服务器在确定目标数据源和配置上述爬取规则后,建立了相应的爬取任务。爬虫根据爬取任务,自行爬取目标数据源中相应的政务数据。
需要说明的是,爬虫通过模拟登录,即模拟人的登录而非暴力破解的方式访问目标数据源。具体过程如下:首先,根据用户提供的用户名密码或者证书,进行登录操作。如果遇到有验证码的情况,无需用户手工输入,服务器自动识别验证码进行登录。然后,登录后要保存用户的身份信息,例如cookie和session。在登录完成后,爬虫使用本地采集(单机采集)的方式进行爬取,从而获取政务数据。这样通过模拟请求访问文章链接,并将文章中的图片存储到本地,能够解决图床限制问题。
在本申请的一个实施例中,在爬虫获取到目标数据源中的政务数据后,服务器会对目标数据源进行随机抽样,并将随机抽样到的数据与爬取到的数据进行匹配,计算匹配率。如果匹配率不小于预设值,表示爬取到的数据相对准确,则将通过校验的数据存储至本地数据库中用于后续分析处理;如果匹配率小于预设值,表示爬取到的数据准确性较低,则需要再次进行数据爬取,直至匹配率不小于预设值。这样对爬取到的数据进行匹配校验,能够有效提高数据爬取的准确性,避免因数据获取阶段的不准确性而造成分析结果的误差。
在本申请的一个实施例中,服务器在确定目标数据源后,根据与目标数据源中相近的行政区域级别、人口数量、面积、城市发展情况等指标,推荐类似的目标数据源,有效减少了搜索成本,提高了数据收集的效率。
S102、对爬取到的数据进行批量清洗,并存储至数据仓库中。
服务器对爬取到的数据进行批量清洗,并将清洗过的数据保存至数据仓库中,以供后续的分析和挖掘。
在本申请的一个实施例中,服务器从本地数据库中抽取从目标数据源中爬取到的数据,然后针对数据中的缺失部分,通过预设规则进行空值填充;针对数据中的重复部分,将其合并为一条数据或过滤重复记录,这样来确保数据的完整性。此外,爬取到的数据中可能会存在格式不统一的问题,例如图片内容相同,但由于采集方式或目标数据源不同,图片会存在多种格式(如jpg、jpeg、png等)。服务器在对数据进行重复值过滤后,会将不同格式的数据统一成一种预设格式,然后在完成格式转换后,对存在转换的数据进行再次过滤,去除该部分中的重复数据,进一步减少不必要的冗余数据,从而提高数据处理效率。
本申请实施例采用MongoDB数据存储技术,实现非结构化数据的分布式存储。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。MongoDB最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
MongoDB支持实时数据处理,能够实时的***、更新与查询数据,并具备实时数据存储所需的复制及高度伸缩性。另外,MongoDB性能很高,可作为作为信息基础设施的缓存层。这样在***重启之后,由它搭建的持久化缓存层可以避免下层的数据源过载。此外,MongoDB还用于存储非结构化的数据和文章数据。
S103、根据与政务数据相关的层级划分指标和分类汇总指标,构建多维数据挖掘模型。
服务器针对数据仓库中的数据,定义层级划分指标和分类汇总指标,并据此构建多维数据挖掘模型,以对数据进行进一步的挖掘与分析。
具体地,层级划分指标和分类汇总指标均与政务数据有关。层级划分指标表示对某一维度的政务数据划分层次,例如,将行政区域划分为省、市、区三种级别,或将时间划分为年、月、日;分类汇总指标是根据政务数据所在的不同领域进行类型划分。
图2为本申请实施例提供的一种分类汇总指标示意图。由图2可示,分类汇总指标共包括资源环境、人口就业、产业支撑、城乡建设、科技创新、公共服务、居民生活七大类。对各指标进行类型划分,有利于对政务数据的归类,这样更便于用户查询相关数据,提高工作和决策效率。
S104、基于多维数据挖掘模型,对数据仓库中的数据进行多维挖掘和分析,并对分析结果进行展示。
服务器根据多维数据挖掘模型,对数据仓库中的数据进行多维度多角度的挖掘与分析,并通过预设展示方式将分析结果展示出来。
在本申请的一个实施例中,层级划分指标中包括行政区域级别(如省、市、区)和时间维度(如年、月、日),分类汇总指标则是指定具体类别对数据进行分类汇总和计算。服务器首先确定层级划分指标中指定的行政区域级别、时间,以及分类汇总指标中指定的类别,然后对指定时间内的指定行政区域对应的汇总指标的政务数据进行汇总计算,并将汇总计算的结果通过预设展示形式进行展示。其中,预设展示形式至少包括以下任意一项:折线图、柱形图、扇形图、表格。
图3为本申请实施例提供的一种预设展示形式示意图。如图3所示,以折线图的形式展示了2019年户籍人口城镇化率这一汇总指标数据,其中,纵坐标表示户籍人口城镇化率,横坐标表示山东省各个市。
本申请提供的实施例以表格可视化图形等形式展示查询结果,用户能够更直观地了解到各行政区域对应的指标汇总数据,有利于政府部门根据各分类汇总指标对应的数据,调整工作计划及制定决策。同时,查询结果可导出成多种格式,对接常用的数据分析工具、智能分析挖掘工具接口,实现深度挖掘,从而提高数据资源利用率,提升数据资源价值和分析应用水平。
在本申请的一个实施例中,服务器对数据仓库中的数据进行多维挖掘和分析,并支持以多种方式查询获取分析结果。
具体地,服务器支持对分类汇总指标和行政区域级别的下钻查询,即根据划分的行政区域级别,对指定时间内相应的行政区域对应的汇总指标的政务数据,以及指定时间内相应的指定的类别的政务数据进行下钻查询;和/或根据默认提示,添加指定关键字,进行自定义查询,例如,添加行政区域代码、指标代码和时间范围,查询指定时间内该行政区域对应的指标的政务数据;和/或基于层级划分指标和分类汇总指标,确定指定的行政区域、时间和汇总指标类别,实现跨时间、多指标、多区域的高级组合查询。
图4为本申请实施例提供的一种下钻查询方式示意图。图4所示为,2019年山东省及下设市针对人口就业指标进行下钻查询的结果。对指定时间内相应的指定的类别的政务数据进行下钻查询,实现了对政务数据的分领域查询。
图5为本申请实施例提供的另一种下钻查询方式示意图。如图5所示,对地区进行下钻,查询获取城市各行政区2019年关于人口就业指标的汇总数据,实现了对指定时间内相应的行政区域对应的汇总指标的政务数据的下钻查询。
图6为本申请实施例提供的一种自定义查询方式示意图。如图6所示,默认提示包括输入多种维度、年份范围、地区代码、指标代码等关键词。用户可以根据默认提示添加如上关键字,即可进行自定义查询,这样在使用时可根据用户自身需求定义查询条件,进而获取所需数据,提高了易用性。
图7为本申请实施例提供的一种组合查询方式示意图。如图7所示,组合查询条件包括时间、指标分组、地区、地区标记及是否包含下级地区,用户确定相应查询条件后,即可进行对政务数据多方位的组合查询,这样的高级查询方式细化了查询粒度,更符合实际工作场景。
本申请实施例提供的多种查询方式体现了数据分析与挖掘的多维性和全面性,同时,采用多种方式完成政务数据的查询,能够满足不同用户的需求,提高了易用性和实用性。
在本申请的一个实施例中,服务器通过建立索引实现对于数据的即席查询和组合查询。首先,服务器根据数据仓库中的数据对应的元数据,确定待建立的索引;然后,以存储的各数据包为单位,多个数据包构成一列,建立数据层面的列存储结构,也就是数据仓库对应的索引。基于元数据层面建立索引,不仅能够保证用户直观方便地掌握和监控整个数据资源全貌及其加工处理过程,并且在数据查询时不需要解包就能得到统计值,可进一步降低I/O,提高数据查询效率。
本申请实施例提供的索引技术可以实现数据的即席查询,并保证严谨的元数据组织关系和灵活的数据结构,使用户可以进行任意组合的查询分析,提供即查即所见性能保障,使探索式分析成为可能。
同时,通过建立数据处理业务全程的元数据管理功能和机制,不仅提供了一个数据资源和数据处理过程的全局视图,保证用户直观方便地掌握和监控整个数据资源全貌及其加工处理过程,而且贯穿整个数据处理的全生命周期,包括数据来源、ETL、存储、处理、分析、展现、使用、存档等各个环节。使用标准化元数据来描述各种原始数据,实现数据资源的整合和统一管理,使得所有指标都可以按时间序列、地区、行业等多维度多角度查询和全方位的展示。
在本申请的一个实施例中,爬取到的数据中包括与政务相关的文章,服务器能够针对不同用户进行文章的个性化推送。
具体地,通过定位***确定用户的地理位置,并根据地理位置和预设距离阈值,确定该用户所属的地理位置范围。
进一步地,根据该地理位置范围内各文章的点击量和收藏量,通过以下公式计算各文章对应的推送系数:
E=p1·i1+p2·i2
其中,p1表示点击系数,i1表示所述文章对应的点击量,p2表示收藏系数,i2表示所述文章对应的收藏量。
需要说明的是,点击系数和收藏系数可以人为确定或通过计算获得。例如,某一时刻内,对比不同地理位置范围内某篇文章的收藏量,确定该文章的收藏量最大值为1010,那么则将收藏系数设置为1/1010。以上参数的选择仅以此举例,本申请不以此为限。
更进一步地,根据推送系数确定各文章的推送顺序,依次向用户推送文章。
通过用户所在地理位置范围内各文章的点击量和收藏量来确定推送的具体文章,这样在推送文章时,能够将该用户的周边用户作为参考,提高推送的准确率,实现文章的个性化推荐。
更进一步地,根据用户的活动轨迹及在各地点停留的时间,判断用户的工作地点。其次,确定该工作地点内各个文章的点击量和收藏量,并计算推送系数。最后,根据推送系数对用户推送文章。由于用户工作地点与政务数据的关联程度相对于其他位置来说更大,因此根据工作地点的周边用户作为参考,对用户推荐相应文章,这样能够使推荐的文章更具有参考性,进一步提高推送的准确率。
在本申请的一个实施例中,服务器在发布爬取到的文章之前,通过对比该文章与各文章类型对应的关键词的相似度,对文章划分具体的类型。对文章分类的过程,具体如下:
首先,确定各个文章类型对应的预设关键词。文章类型主要包括领导讲话、政策法规、研究报告、实践创新,预设关键词可以为一个或多个。例如,政策法规类型的关键词可以设置为颁布、政策、施行等。
其次,对待发布的文章进行分词,然后将分词的结果与各文章类型对应的预设关键词进行对比,计算相似度。如果相似度不小于第一预设阈值,表示待发布文章的类型与该文章类型较为相似,则将该待发布文章划分于此文章类型下。
然后,在待发布文章划分于某一文章类型下后,将待发布文章与该文章类型下的其他文章再次进行相似度对比,确保分类结果的准确性。如果相似度不小于第二预设阈值,表示待发布文章与划分的文章类型下的其他文章较为相似,分类结果较为准确,则将该文章类型作为待发布文章的所属类型。
需要说明的是,在将待发布文章与划分的文章类型下的其他文章进行相似度对比时,即使个别文章较为独特,待发布文章也会与该类型下的大多数文章存在较高的相似度。如果再次进行相似度对比后,与待发布文章相似度小于第二预设阈值的文章数量超过预设值,则表示该待发布文章的分类结果可能存在误差。那么,将待发布文章与其他文章类型的预设关键词再进行对比,重新进行待发布文章的类型划分。
在本申请的一个实施例中,针对各文章类型下已发布的各个文章,用户可以收藏某一篇文章并将其划分于特定的收藏类型下。其中,收藏类型除原有的文章类型之外,用户还可以自定义收藏类型。然后,服务器将该文章对应的收藏类型与实际所属的文章类型进行对比,如果将该文章收藏于某个收藏类型下的数量与该文章的全部收藏数量的比率超过预设值,而该收藏类型与文章实际所属的文章类型不符,表示该文章的实际分类结果可能存在一定的误差,则将该文章所属的文章类型变更为用户划分的收藏类型。
例如,领导讲话类型中的某篇文章的总收藏数为50,根据后台数据得知,用户将它收藏于政策法规类型的数量为30,而此时预设的收藏比率为50%,那么该文章收藏于政策法规的数量与全部收藏数量的比率已经超过了预设比率,则将该文章的所属文章类型由领导讲话更改为政策法规。以上参数的选择仅以此举例,本申请不以此为限。
本申请实施例提供的一种面向政府决策的政务大数据分析方法,爬取与政务数据相关的目标数据源中的数据,并对数据进行进一步的分析与处理,有效提高了政务数据的利用率,减少了资源浪费;基于多维分析和数据挖掘技术,构造多维数据挖掘模型,对数据仓库中的数据进行更深层次的挖掘与分析,解决了传统政务数据分析方法实时性、高效性、交互性差的问题;将多维分析的结果通过可视化界面进行展示,且提供了针对不同层次划分指标和分类汇总指标的多种数据查询方法,提高了易用性;通过对文章划分类型和实时推送,为各部门工作提供了信息参考,增强了用户体验。
以上为本申请提出的方法实施例。基于同样的发明构思,本申请实施例还提供了一种面向政府决策的政务大数据分析设备,其内部结构如图8所示。
图8为本申请实施例提供的一种面向政府决策的政务大数据分析设备结构示意图。如图8所示,设备包括处理器801、及存储器802,其上存储有可执行代码,当可执行代码被执行时,使得处理器801执行如上的一种面向政府决策的政务大数据分析方法。
在本申请的一个实施例中,处理器801用于确定与政务数据相关的目标数据源,并配置爬取规则,对目标数据源进行数据爬取;对爬取到的数据进行批量清洗,并存储至数据仓库中;根据与政务数据相关的层级划分指标和分类汇总指标,构建多维数据挖掘模型;基于多维数据挖掘模型,对数据仓库中的数据进行多维挖掘和分析,并对分析结果进行展示。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种面向政府决策的政务大数据分析方法,其特征在于,所述方法包括:
确定与政务数据相关的目标数据源,并配置爬取规则,对所述目标数据源进行数据爬取;
对爬取到的数据进行批量清洗,并存储至数据仓库中;
根据与政务数据相关的层级划分指标和分类汇总指标,构建多维数据挖掘模型;
基于所述多维数据挖掘模型,对所述数据仓库中的数据进行多维挖掘和分析,并对分析结果进行展示。
2.根据权利要求1所述的一种面向政府决策的政务大数据分析方法,其特征在于,对爬取到的数据进行批量清洗之前,所述方法还包括:
对所述目标数据源进行随机抽样,并与爬取到的数据进行匹配校验;
在所述爬取到的数据通过校验的情况下,将数据存储至本地数据库中。
3.根据权利要求2所述的一种面向政府决策的政务大数据分析方法,其特征在于,对爬取到的数据进行批量清洗,具体包括:
从所述本地数据库中抽取所述爬取到的数据;
对所述爬取到的数据进行空值填充和重复值过滤;
将过滤后的数据统一转换为预设格式,并对存在转换的数据进行再过滤。
4.根据权利要求1所述的一种面向政府决策的政务大数据分析方法,其特征在于,对分析结果进行展示,具体包括:
确定所述层级划分指标中指定的行政区域级别、时间,以及所述分类汇总指标中指定的类别;
根据预设展示形式,对所述时间内相应行政区域对应的汇总指标的政务数据分别进行展示;其中,所述预设展示形式至少包括以下任意一项:折线图、柱形图、扇形图、表格。
5.根据权利要求4所述的一种面向政府决策的政务大数据分析方法,其特征在于,对所述数据仓库中的数据进行多维挖掘和分析,具体包括:
根据所述行政区域级别,对所述时间内相应行政区域对应的汇总指标的政务数据,以及所述时间内相应的指定的类别的政务数据进行下钻查询;和/或
添加指定关键字,并通过所述关键字进行自定义查询;和/或
确定所述层级划分指标中指定的行政区域、时间和所述分类汇总指标中指定的类别,进行组合查询。
6.根据权利要求1所述的一种面向政府决策的政务大数据分析方法,其特征在于,所述方法还包括:
根据所述数据仓库中的数据对应的元数据,确定待建立的索引;
以数据包为单位构建列存储结构,建立所述数据仓库对应的索引。
7.根据权利要求1所述的一种面向政府决策的政务大数据分析方法,其特征在于,所述爬取到的数据包括文章;
所述方法还包括:
根据用户的地理位置和预设距离阈值,确定地理位置范围;
根据所述地理位置范围内各文章的点击量和收藏量,计算文章对应的推送系数;
根据文章的推送系数,向所述用户推送文章。
8.根据权利要求7所述的一种面向政府决策的政务大数据分析方法,其特征在于,所述方法还包括:
确定文章类型对应的预设关键词;其中,所述文章类型包括领导讲话、政策法规、研究报告、实践创新;
对待发布的文章进行分词处理,并将分词结果与所述预设关键词进行对比,计算相似度;
在所述相似度不小于第一预设阈值的情况下,将所述待发布的文章划分于相应的文章类型下;
将所述待发布的文章与所述相应的文章类型下的其他文章进行相似度对比,确定相似度不小于第二预设阈值。
9.根据权利要求8所述的一种面向政府决策的政务大数据分析方法,其特征在于,所述方法还包括:
针对文章类型中包含的文章,确定用户划分的该文章对应的收藏类型;
将所述收藏类型与该文章所属的文章类型进行比较,更正该文章所属的文章类型。
10.一种面向政府决策的政务大数据分析设备,其特征在于,所述设备包括:
处理器;
及存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-9任一项所述的一种面向政府决策的政务大数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204049.9A CN112800083B (zh) | 2021-02-24 | 2021-02-24 | 一种面向政府决策的政务大数据分析方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204049.9A CN112800083B (zh) | 2021-02-24 | 2021-02-24 | 一种面向政府决策的政务大数据分析方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800083A true CN112800083A (zh) | 2021-05-14 |
CN112800083B CN112800083B (zh) | 2022-03-18 |
Family
ID=75815439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110204049.9A Active CN112800083B (zh) | 2021-02-24 | 2021-02-24 | 一种面向政府决策的政务大数据分析方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800083B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114240220A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 政务数据处理方法、装置、设备、介质和程序产品 |
CN114596182A (zh) * | 2022-03-09 | 2022-06-07 | 王淑娟 | 一种基于大数据的政务管理方法及*** |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984435A (zh) * | 2010-11-17 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种对文本进行分发的方法和装置 |
CN103309886A (zh) * | 2012-03-13 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种基于交易平台的结构化信息搜索方法和装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
CN107656938A (zh) * | 2016-07-26 | 2018-02-02 | 北京搜狗科技发展有限公司 | 一种推荐方法和装置、一种用于推荐的装置 |
US20180341686A1 (en) * | 2017-05-26 | 2018-11-29 | Nanfang Hu | System and method for data search based on top-to-bottom similarity analysis |
CN109408642A (zh) * | 2018-08-30 | 2019-03-01 | 昆明理工大学 | 一种基于距离监督的领域实体属性关系抽取方法 |
CN110325986A (zh) * | 2017-12-15 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 文章处理方法、装置、服务器及存储介质 |
CN110781236A (zh) * | 2019-10-29 | 2020-02-11 | 山西云时代技术有限公司 | 一种构建政务大数据治理体系的方法 |
CN111222028A (zh) * | 2020-01-10 | 2020-06-02 | 四川日报社 | 一种数据智能爬取方法 |
CN111783468A (zh) * | 2020-06-28 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 文本处理方法、装置、设备和介质 |
-
2021
- 2021-02-24 CN CN202110204049.9A patent/CN112800083B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984435A (zh) * | 2010-11-17 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种对文本进行分发的方法和装置 |
CN103309886A (zh) * | 2012-03-13 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种基于交易平台的结构化信息搜索方法和装置 |
CN107656938A (zh) * | 2016-07-26 | 2018-02-02 | 北京搜狗科技发展有限公司 | 一种推荐方法和装置、一种用于推荐的装置 |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
US20180341686A1 (en) * | 2017-05-26 | 2018-11-29 | Nanfang Hu | System and method for data search based on top-to-bottom similarity analysis |
CN110325986A (zh) * | 2017-12-15 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 文章处理方法、装置、服务器及存储介质 |
CN109408642A (zh) * | 2018-08-30 | 2019-03-01 | 昆明理工大学 | 一种基于距离监督的领域实体属性关系抽取方法 |
CN110781236A (zh) * | 2019-10-29 | 2020-02-11 | 山西云时代技术有限公司 | 一种构建政务大数据治理体系的方法 |
CN111222028A (zh) * | 2020-01-10 | 2020-06-02 | 四川日报社 | 一种数据智能爬取方法 |
CN111783468A (zh) * | 2020-06-28 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 文本处理方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
马丙超: "基于引文网络的文献在线推荐***研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114240220A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 政务数据处理方法、装置、设备、介质和程序产品 |
CN114596182A (zh) * | 2022-03-09 | 2022-06-07 | 王淑娟 | 一种基于大数据的政务管理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112800083B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7885918B2 (en) | Creating a taxonomy from business-oriented metadata content | |
US9092478B2 (en) | Managing business objects data sources | |
US9798772B2 (en) | Using persistent data samples and query-time statistics for query optimization | |
US8938475B2 (en) | Managing business objects data sources | |
US7143107B1 (en) | Reporting engine for data warehouse | |
CN105706078B (zh) | 实体集合的自动定义 | |
Rao et al. | Spatial hierarchy and OLAP-favored search in spatial data warehouse | |
US20040243555A1 (en) | Methods and systems for optimizing queries through dynamic and autonomous database schema analysis | |
US9747349B2 (en) | System and method for distributing queries to a group of databases and expediting data access | |
US20130006976A1 (en) | Search tool that utilizes scientific metadata matched against user-entered parameters | |
US20080065632A1 (en) | Server, method and system for providing information search service by using web page segmented into several inforamtion blocks | |
CN102667761A (zh) | 可扩展的集群数据库 | |
CN112800083B (zh) | 一种面向政府决策的政务大数据分析方法及设备 | |
CN105045875A (zh) | 个性化信息检索方法及装置 | |
CN104050213B (zh) | 包括数据分类的查询处理*** | |
CN109408578A (zh) | 一种针对异构环境监测数据融合方法 | |
CN115757689A (zh) | 一种信息查询***、方法及设备 | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
KR20180126792A (ko) | 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법 | |
CN114707059A (zh) | 一种基于用户偏好的水利对象元数据推荐***构建方法 | |
US20100268723A1 (en) | Method of partitioning a search query to gather results beyond a search limit | |
WO2008055202A2 (en) | System and method for distributing queries to a group of databases and expediting data access | |
Goyal | Qp-subdue: Processing queries over graph databases | |
CN112214660A (zh) | 工业信息标识与检索*** | |
Cheng et al. | Generic cumulative annular bucket histogram for spatial selectivity estimation of spatial database management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 250002 No. 128 Wolong Road, Jinan City, Shandong Province Applicant after: Shandong Institute of housing and urban rural development Address before: No.17, sanlizhuang, Jingliu Road, Shizhong District, Jinan City, Shandong Province Applicant before: SHANDONG CONSTRUCTION DEVELOPMENT Research Institute |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |