CN109636352A

CN109636352A - 一种基于财政大数据的分布式内容查重预警***

Info

Publication number: CN109636352A
Application number: CN201811562264.0A
Authority: CN
Inventors: 李景龙
Original assignee: Hunan Long Hui Group Ltd By Share Ltd
Current assignee: Hunan Long Hui Group Ltd By Share Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-16

Abstract

本发明公开了一种基于财政大数据的分布式内容查重预警***及方法，包括项目申报***、内容预警模型中心、内容分析引擎、大数据管理平台、信息推送中心、任务调度中心。本发明优点在于基于大数据管理***，建立统一的申报项目库、工商库；基于分布式计算技术的内容分析引擎，支持基于项目库与工商库的大规模申报内容数据的快速查重分析，可以利用多服务器算力进行快速计算，快速的计算出申报内容的相似值，***实用性强、查重效率高、结果安全可靠。

Description

一种基于财政大数据的分布式内容查重预警***

技术领域

本发明具体涉及一种基于财政大数据的分布式内容查重预警***。

背景技术

随着信息化产业的不断发展，财政部门建设了一批专项资金信息管理应用***，实现了纸质化办公向网上办公的跨越式转变，提升了办公效率，但随着政府对企业的扶持力度不断加大，财政部门需要处理大量的企业扶持专项资金申报，审核大量的申报内容，为了应对该问题，***需要更加的智能化，可对申报内容进行查重分析，根据分析结果向管理人员预警；由于政府信息化建设缺少统一的规划，多采用独立、分散建设的方式，信息资源不能有效的共享利用，难以通过简单的升级来解决数据整合的问题。

随着大数据技术与分布式计算技术的发展，建立统一的项目申报大数据管理平台，成为解决专项资金申报项目内容多有雷同的解决方案，现有的财政信息预警平台产品能够完成对申报项目内容查重预警，通过设定内容相似度预警阀值决定是否发送预警通知，主要存在以下问题：1）面对大规模的数据内容，单机服务器计算算力有限，最简单的长度只有20个字符的两个数据循环100w次计算这两个数据的相似度耗时>=4000ms，假设我们一天需要比较100w次，光是比较100w次的数据是否重复就需要4s，就算4s一个文档，单线程一分钟才处理15个文档，一个小时才900个，如果一个申报内容文本文档可能达到几百兆大小，效率还会有下降；2）数据存储相对分散，数据没有集中存储在统一的数据平台、信息资源不能有效的共享利用，导致申报内容数据需要各级财政专项平台进行重复的内容查重运算；3）未能建立统一的工商大数据库，由于申报单位法人或股东名下存在多家企业，而多家企业可能都参与申报同一项目，因此可能产生多头申报问题，不能完全有效的规避内容重复申报问题。但是由于分析精确度低、***架构存储在单一节点、不支持分布式计算、海量的申报内容数据，计算效率过低问题突出，不能及时的将结果反馈给用户，同时容易造成问题审批。

因此有必要提供一种基于财政大数据的分布式内容查重预警***及方法来解决上述问题。

发明内容

本发明的目的在于提供一种效率较高且安全可靠性高的基于财政大数据的分布式内容查重预警***，一种基于文档文字图像识别、中文分词算法、财政大数据实现的分布式计算内容相似度与分析相似内容的高效预警信息平台。

本发明目的之一提供基于财政大数据的分布式内容查重预警***，包括项目申报模块、内容预警模块、内容分析引擎、财政大数据库、信息推送中心、任务调度中心，其中：

项目申报模块，用于用户申报专项资金项目；

内容预警模块，设定内容相似性预警的警戒线数值以及与之对应的预警级别。

内容分析引擎，引擎核心分为两个部分，中文分词算法与内容相似度算法，中文分词算法负责将申报的整个文档内容的语句拆分成词语（即词元，指组成一句话的词语），相似度算法负责计算两篇对比的目标申报文档的相似值，相似度算法为Simhash算法。

财政大数据库，与工商数据库及项目申报数据库通讯连接，财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库。

信息推送中心，将预警的信息按管理的不同要求进行精准推送。

任务调度中心，负责调度相应的处理算法与功能执行任务。

本发明的另一个目的是采用上述***提供一种基于财政大数据的分布式内容查重预警方法，包括以下步骤：

S1财政大数据库建立，通过设定的算法模型，对采集的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库；

S2企业通过项目申报模块填写专项资金申报内容，向服务器提交专项资金项目申报请求，服务器端接收客户端发送的项目申报请求，开始接收数据；

S3通过内容分析引擎，调用分词算法功能接口对项目申报内容进行词法分析，并将语句内容拆分成词元，调用存储层接口将分词的词元存储财政大数据库中，申报主体的项目申报内容会以文档形式存储在HDFS与MangoDB中；

S4通过任务调度中心，调用任务调度中心的任务接口，发布相似度计算任务与工商库企业关系链路计算任务，调用分布式计算工具Spark接口，执行计算任务，利用多服务器算力进行快速计算，快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析；

S5将计算结果反馈给内容预警模型中心，模型判断结果是否触发预警阀值，超过预警值则开始步骤S6，无则结束整个项目内容预警计算流程；

S6通过预警模型中心向预警表中写入预警日志，调用预警结果消息推送接口，消息推送主要通过邮件、站内信、短信、APP的方式进行，可以动态设定消息推送方式；

S7通过信息推送中心进行预警结果消息推送，打开消息通知，查看查重结果，重复的内容被标注出来进行显示。

所述的S3中分词算法基于正向匹配的分词算法，具体方法为：采用的智能分词模式smart模式，本***分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果，同时在本算法中建设性的开创词元与词元链概念，词元链是分词的一种结果根据前后顺序组成一个链式结构，其本质是由交叉的词元组成的有序集合，词元对象中定义了词元在整个链路中的位置，用于消除歧义。

所述的S4中相似度查重分析的方法优选采用SimHash相似度算法，算法过程如下：

1）将Doc进行关键词抽取(其中包括分词和计算权重)，抽取出n个(关键词，权重)对，即图中的(feature, weight)们。记为feature_weight_pairs = [fw1, fw2 … fwn]，其中 fwn = (feature_n,weight_n`)；

2）hash_weight_pairs = [ (hash(feature), weight) for feature, weight infeature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6；

3）然后对 hash_weight_pairs 进行位的纵向累加，如果该位是1，则+weight,如果是0，则-weight，最后生成bits_count个数字，生成的数字值和hash函数所用的算法相关；

4）生成的数字值 -> 110001，正1负0。

本发明提供的这种基于财政大数据的分布式内容查重预警***及方法，用户通过平台提交项目申报表单，所有申报的数据以文档形式存储在HDFS与MangoDB中，通过设定的算法模型SimHash相似度算法，对申报的项目数据进行清洗、加工、分类，结构化存储起来，以便于高效的查找与读取，本发明可以消除资源的分散所导致的数据资源孤岛问题，可以全程的跟踪整个项目内容申报的全周期，提供全周期的监控，保证项目资金可以做到科学合理的运用，最大程度的避免弄虚作假重复申报，避免财政资金的浪费，从而促进企业的高速发展。

附图说明

图1为本发明的***结构图。

图2为本发明的分布式计算流程图。

图3为本发明的Simhash计算原理图。

具体实施方式

如图1所示为本发明的***结构图，本发明提供的这种基于财政大数据的分布式内容查重预警***，包括财政大数据库、项目申报模块、预警模型中心、内容分析引擎、信息推送中心、任务调度中心，其中：

财政大数据库，与工商数据库及项目申报数据库通讯连接，财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库；

项目申报模块，用户从终端进行专项资金项目申报；

预警模型中心，设定内容相似性预警的警戒线数值以及与之对应的预警级别；

内容分析引擎，引擎核心分为两个部分，中文分词算法与内容相似度算法，中文分词算法负责将申报的整个文档内容的语句拆分成词语（即词元，指组成一句话的词语），相似度算法负责计算两篇对比的目标申报文档的相似值，相似度算法为Simhash算法；

信息推送中心，将预警的信息按管理的不同要求进行精准推送；

任务调度中心，负责调度相应的处理算法与功能执行任务。

本实施例的一种基于财政大数据的分布式内容查重预警方法，包括以下步骤：

S4通过任务调度中心，调用任务调度中心的任务接口，任务接口包括发布相似度计算任务与工商库企业关系链路计算任务，调用分布式计算工具Spark接口，通过内容分析引擎中的相似度计算引擎执行计算任务，利用多服务器节点进行快速计算，参见图2，快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析；

S5将计算结果反馈给内容预警模型中心，模型判断结果是否触发预警阀值，超过预警值则开始步骤S6，否则结束整个项目内容预警计算流程；

本实施例的S4中相似度查重分析的方法采用SimHash相似度算法，参见图3，算法过程如下：

1）将Doc进行关键词抽取(其中包括分词和计算权重)，抽取出n个(关键词，权重)对，即图中的(feature, weight)们。记为feature_weight_pairs = [fw1, fw2 … fwn]，其中fwn = (feature_n,weight_n`)；

2）hash_weight_pairs=[ (hash(feature), weight) for feature, weight infeature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6；

3）然后对 hash_weight_pairs 进行位的纵向累加，如果该位是1，则+weight,如果是0，则-weight，最后生成bits_count个数字，如图所示是[13, 108, -22, -5, -32, 55],这里产生的值和hash函数所用的算法相关；即对这些词进行hash，得到64位二进制，得到20个长度为64的二进制集合, hash位为1，则用正权重代替；hash位为0，则用负权值代替；得到20个长度为64的列表[weight, -weight, weight,…,weight], 对20个列表进行列向累加，得到一个列表，也就是对一个文档而言，得到一个长度为64的列表。

4）对这个列表进行判断，正值取1，负值取0；如[13,108,-22,-5,-32,55] 得到10001 ，这就是一篇文档的simhash值，两个simhash进行异或运算（海明距离），异或结果，1的个数超过3不相似，小于等于3相似。

Claims

1.一种基于财政大数据的分布式内容查重预警***，其特征在于，包括财政大数据库、项目申报模块、内容预警模块、内容分析引擎、信息推送中心、任务调度中心，其中：

项目申报模块，用于用户申报专项资金项目；

内容预警模块，设定内容相似性预警的警戒线数值以及与之对应的预警级别；

内容分析引擎，引擎核心分为两个部分，中文分词算法与内容相似度算法；

任务调度中心，负责调度相应的处理算法与功能执行任务。

2.一种基于财政大数据的分布式内容查重预警方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法，其特征在于，所述的S3中分词算法基于正向匹配的分词算法，具体方法为：采用的智能分词模式smart模式，本***分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果，同时在本算法中建设性的开创词元与词元链概念，词元链是分词的一种结果根据前后顺序组成一个链式结构，其本质是由交叉的词元组成的有序集合，词元对象中定义了词元在整个链路中的位置，用于消除歧义。

4.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法，其特征在于，所述的S4中相似度查重分析的方法采用SimHash相似度算法。