CN109636352A - 一种基于财政大数据的分布式内容查重预警*** - Google Patents
一种基于财政大数据的分布式内容查重预警*** Download PDFInfo
- Publication number
- CN109636352A CN109636352A CN201811562264.0A CN201811562264A CN109636352A CN 109636352 A CN109636352 A CN 109636352A CN 201811562264 A CN201811562264 A CN 201811562264A CN 109636352 A CN109636352 A CN 109636352A
- Authority
- CN
- China
- Prior art keywords
- content
- early warning
- duplicate checking
- center
- lemma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000013523 data management Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于财政大数据的分布式内容查重预警***及方法,包括项目申报***、内容预警模型中心、内容分析引擎、大数据管理平台、信息推送中心、任务调度中心。本发明优点在于基于大数据管理***,建立统一的申报项目库、工商库;基于分布式计算技术的内容分析引擎,支持基于项目库与工商库的大规模申报内容数据的快速查重分析,可以利用多服务器算力进行快速计算,快速的计算出申报内容的相似值,***实用性强、查重效率高、结果安全可靠。
Description
技术领域
本发明具体涉及一种基于财政大数据的分布式内容查重预警***。
背景技术
随着信息化产业的不断发展,财政部门建设了一批专项资金信息管理应用***,实现了纸质化办公向网上办公的跨越式转变,提升了办公效率,但随着政府对企业的扶持力度不断加大,财政部门需要处理大量的企业扶持专项资金申报,审核大量的申报内容,为了应对该问题,***需要更加的智能化,可对申报内容进行查重分析,根据分析结果向管理人员预警;由于政府信息化建设缺少统一的规划,多采用独立、分散建设的方式,信息资源不能有效的共享利用,难以通过简单的升级来解决数据整合的问题。
随着大数据技术与分布式计算技术的发展,建立统一的项目申报大数据管理平台,成为解决专项资金申报项目内容多有雷同的解决方案,现有的财政信息预警平台产品能够完成对申报项目内容查重预警,通过设定内容相似度预警阀值决定是否发送预警通知,主要存在以下问题:1)面对大规模的数据内容,单机服务器计算算力有限,最简单的长度只有20个字符的两个数据循环100w次计算这两个数据的相似度耗时>=4000ms,假设我们一天需要比较100w次,光是比较100w次的数据是否重复就需要4s,就算4s一个文档,单线程一分钟才处理15个文档,一个小时才900个,如果一个申报内容文本文档可能达到几百兆大小,效率还会有下降;2)数据存储相对分散,数据没有集中存储在统一的数据平台、信息资源不能有效的共享利用,导致申报内容数据需要各级财政专项平台进行重复的内容查重运算;3)未能建立统一的工商大数据库,由于申报单位法人或股东名下存在多家企业,而多家企业可能都参与申报同一项目,因此可能产生多头申报问题,不能完全有效的规避内容重复申报问题。但是由于分析精确度低、***架构存储在单一节点、不支持分布式计算、海量的申报内容数据,计算效率过低问题突出,不能及时的将结果反馈给用户,同时容易造成问题审批。
因此有必要提供一种基于财政大数据的分布式内容查重预警***及方法来解决上述问题。
发明内容
本发明的目的在于提供一种效率较高且安全可靠性高的基于财政大数据的分布式内容查重预警***,一种基于文档文字图像识别、中文分词算法、财政大数据实现的分布式计算内容相似度与分析相似内容的高效预警信息平台。
本发明目的之一提供基于财政大数据的分布式内容查重预警***,包括项目申报模块、内容预警模块、内容分析引擎、财政大数据库、信息推送中心、任务调度中心,其中:
项目申报模块,用于用户申报专项资金项目;
内容预警模块,设定内容相似性预警的警戒线数值以及与之对应的预警级别。
内容分析引擎,引擎核心分为两个部分,中文分词算法与内容相似度算法,中文分词算法负责将申报的整个文档内容的语句拆分成词语(即词元,指组成一句话的词语),相似度算法负责计算两篇对比的目标申报文档的相似值,相似度算法为Simhash算法。
财政大数据库,与工商数据库及项目申报数据库通讯连接,财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库。
信息推送中心,将预警的信息按管理的不同要求进行精准推送。
任务调度中心,负责调度相应的处理算法与功能执行任务。
本发明的另一个目的是采用上述***提供一种基于财政大数据的分布式内容查重预警方法,包括以下步骤:
S1财政大数据库建立,通过设定的算法模型,对采集的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
S2企业通过项目申报模块填写专项资金申报内容,向服务器提交专项资金项目申报请求,服务器端接收客户端发送的项目申报请求,开始接收数据;
S3通过内容分析引擎,调用分词算法功能接口对项目申报内容进行词法分析,并将语句内容拆分成词元,调用存储层接口将分词的词元存储财政大数据库中,申报主体的项目申报内容会以文档形式存储在HDFS与MangoDB中;
S4通过任务调度中心,调用任务调度中心的任务接口,发布相似度计算任务与工商库企业关系链路计算任务,调用分布式计算工具Spark接口,执行计算任务,利用多服务器算力进行快速计算,快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析;
S5将计算结果反馈给内容预警模型中心,模型判断结果是否触发预警阀值,超过预警值则开始步骤S6,无则结束整个项目内容预警计算流程;
S6通过预警模型中心向预警表中写入预警日志,调用预警结果消息推送接口,消息推送主要通过邮件、站内信、短信、APP的方式进行,可以动态设定消息推送方式;
S7通过信息推送中心进行预警结果消息推送,打开消息通知,查看查重结果,重复的内容被标注出来进行显示。
所述的S3中分词算法基于正向匹配的分词算法,具体方法为:采用的智能分词模式smart模式,本***分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果,同时在本算法中建设性的开创词元与词元链概念,词元链是分词的一种结果根据前后顺序组成一个链式结构,其本质是由交叉的词元组成的有序集合,词元对象中定义了词元在整个链路中的位置,用于消除歧义。
所述的S4中相似度查重分析的方法优选采用SimHash相似度算法,算法过程如下:
1)将Doc进行关键词抽取(其中包括分词和计算权重),抽取出n个(关键词,权重)对,即图中的(feature, weight)们。 记为feature_weight_pairs = [fw1, fw2 … fwn],其中 fwn = (feature_n,weight_n`);
2)hash_weight_pairs = [ (hash(feature), weight) for feature, weight infeature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6;
3)然后对 hash_weight_pairs 进行位的纵向累加,如果该位是1,则+weight,如果是0,则-weight,最后生成bits_count个数字,生成的数字值和hash函数所用的算法相关;
4)生成的数字值 -> 110001,正1负0。
本发明提供的这种基于财政大数据的分布式内容查重预警***及方法,用户通过平台提交项目申报表单,所有申报的数据以文档形式存储在HDFS与MangoDB中,通过设定的算法模型SimHash相似度算法,对申报的项目数据进行清洗、加工、分类,结构化存储起来,以便于高效的查找与读取,本发明可以消除资源的分散所导致的数据资源孤岛问题,可以全程的跟踪整个项目内容申报的全周期,提供全周期的监控,保证项目资金可以做到科学合理的运用,最大程度的避免弄虚作假重复申报,避免财政资金的浪费,从而促进企业的高速发展。
附图说明
图1为本发明的***结构图。
图2为本发明的分布式计算流程图。
图3为本发明的Simhash计算原理图。
具体实施方式
如图1所示为本发明的***结构图,本发明提供的这种基于财政大数据的分布式内容查重预警***,包括财政大数据库、项目申报模块、预警模型中心、内容分析引擎、信息推送中心、任务调度中心,其中:
财政大数据库,与工商数据库及项目申报数据库通讯连接,财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
项目申报模块,用户从终端进行专项资金项目申报;
预警模型中心,设定内容相似性预警的警戒线数值以及与之对应的预警级别;
内容分析引擎,引擎核心分为两个部分,中文分词算法与内容相似度算法,中文分词算法负责将申报的整个文档内容的语句拆分成词语(即词元,指组成一句话的词语),相似度算法负责计算两篇对比的目标申报文档的相似值,相似度算法为Simhash算法;
信息推送中心,将预警的信息按管理的不同要求进行精准推送;
任务调度中心,负责调度相应的处理算法与功能执行任务。
本实施例的一种基于财政大数据的分布式内容查重预警方法,包括以下步骤:
S1财政大数据库建立,通过设定的算法模型,对采集的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
S2企业通过项目申报模块填写专项资金申报内容,向服务器提交专项资金项目申报请求,服务器端接收客户端发送的项目申报请求,开始接收数据;
S3通过内容分析引擎,调用分词算法功能接口对项目申报内容进行词法分析,并将语句内容拆分成词元,调用存储层接口将分词的词元存储财政大数据库中,申报主体的项目申报内容会以文档形式存储在HDFS与MangoDB中;
S4通过任务调度中心,调用任务调度中心的任务接口,任务接口包括发布相似度计算任务与工商库企业关系链路计算任务,调用分布式计算工具Spark接口,通过内容分析引擎中的相似度计算引擎执行计算任务,利用多服务器节点进行快速计算,参见图2,快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析;
S5将计算结果反馈给内容预警模型中心,模型判断结果是否触发预警阀值,超过预警值则开始步骤S6,否则结束整个项目内容预警计算流程;
S6通过预警模型中心向预警表中写入预警日志,调用预警结果消息推送接口,消息推送主要通过邮件、站内信、短信、APP的方式进行,可以动态设定消息推送方式;
S7通过信息推送中心进行预警结果消息推送,打开消息通知,查看查重结果,重复的内容被标注出来进行显示。
所述的S3中分词算法基于正向匹配的分词算法,具体方法为:采用的智能分词模式smart模式,本***分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果,同时在本算法中建设性的开创词元与词元链概念,词元链是分词的一种结果根据前后顺序组成一个链式结构,其本质是由交叉的词元组成的有序集合,词元对象中定义了词元在整个链路中的位置,用于消除歧义。
本实施例的S4中相似度查重分析的方法采用SimHash相似度算法,参见图3,算法过程如下:
1)将Doc进行关键词抽取(其中包括分词和计算权重),抽取出n个(关键词,权重)对,即图中的(feature, weight)们。记为feature_weight_pairs = [fw1, fw2 … fwn],其中fwn = (feature_n,weight_n`);
2)hash_weight_pairs=[ (hash(feature), weight) for feature, weight infeature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6;
3)然后对 hash_weight_pairs 进行位的纵向累加,如果该位是1,则+weight,如果是0,则-weight,最后生成bits_count个数字,如图所示是[13, 108, -22, -5, -32, 55],这里产生的值和hash函数所用的算法相关;即对这些词进行hash,得到64位二进制,得到20个长度为64的二进制集合, hash位为1,则用正权重代替;hash位为0,则用负权值代替;得到20个长度为64的列表[weight, -weight, weight,…,weight], 对20个列表进行列向累加,得到一个列表,也就是对一个文档而言,得到一个长度为64的列表。
4)对这个列表进行判断,正值取1,负值取0; 如[13,108,-22,-5,-32,55] 得到10001 ,这就是一篇文档的simhash值,两个simhash进行异或运算(海明距离),异或结果,1的个数超过3不相似,小于等于3相似。
Claims (4)
1.一种基于财政大数据的分布式内容查重预警***,其特征在于,包括财政大数据库、项目申报模块、内容预警模块、内容分析引擎、信息推送中心、任务调度中心,其中:
财政大数据库,与工商数据库及项目申报数据库通讯连接,财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
项目申报模块,用于用户申报专项资金项目;
内容预警模块,设定内容相似性预警的警戒线数值以及与之对应的预警级别;
内容分析引擎,引擎核心分为两个部分,中文分词算法与内容相似度算法;
信息推送中心,将预警的信息按管理的不同要求进行精准推送;
任务调度中心,负责调度相应的处理算法与功能执行任务。
2.一种基于财政大数据的分布式内容查重预警方法,其特征在于,包括以下步骤:
S1财政大数据库建立,通过设定的算法模型,对采集的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
S2企业通过项目申报模块填写专项资金申报内容,向服务器提交专项资金项目申报请求,服务器端接收客户端发送的项目申报请求,开始接收数据;
S3通过内容分析引擎,调用分词算法功能接口对项目申报内容进行词法分析,并将语句内容拆分成词元,调用存储层接口将分词的词元存储财政大数据库中,申报主体的项目申报内容会以文档形式存储在HDFS与MangoDB中;
S4通过任务调度中心,调用任务调度中心的任务接口,发布相似度计算任务与工商库企业关系链路计算任务,调用分布式计算工具Spark接口,执行计算任务,利用多服务器算力进行快速计算,快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析;
S5将计算结果反馈给内容预警模型中心,模型判断结果是否触发预警阀值,超过预警值则开始步骤S6,无则结束整个项目内容预警计算流程;
S6通过预警模型中心向预警表中写入预警日志,调用预警结果消息推送接口,消息推送主要通过邮件、站内信、短信、APP的方式进行,可以动态设定消息推送方式;
S7通过信息推送中心进行预警结果消息推送,打开消息通知,查看查重结果,重复的内容被标注出来进行显示。
3.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法,其特征在于,所述的S3中分词算法基于正向匹配的分词算法,具体方法为:采用的智能分词模式smart模式,本***分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果,同时在本算法中建设性的开创词元与词元链概念,词元链是分词的一种结果根据前后顺序组成一个链式结构,其本质是由交叉的词元组成的有序集合,词元对象中定义了词元在整个链路中的位置,用于消除歧义。
4.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法,其特征在于,所述的S4中相似度查重分析的方法采用SimHash相似度算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811562264.0A CN109636352A (zh) | 2018-12-20 | 2018-12-20 | 一种基于财政大数据的分布式内容查重预警*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811562264.0A CN109636352A (zh) | 2018-12-20 | 2018-12-20 | 一种基于财政大数据的分布式内容查重预警*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109636352A true CN109636352A (zh) | 2019-04-16 |
Family
ID=66075908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811562264.0A Pending CN109636352A (zh) | 2018-12-20 | 2018-12-20 | 一种基于财政大数据的分布式内容查重预警*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109636352A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175280A (zh) * | 2019-04-30 | 2019-08-27 | 广东鼎义互联科技股份有限公司 | 一种基于政务大数据的爬虫分析平台 |
CN110223048A (zh) * | 2019-06-18 | 2019-09-10 | 湖南晖龙集团股份有限公司 | 专项资金申报综合管理平台*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455596A (zh) * | 2013-09-02 | 2013-12-18 | 广东省计算中心 | 一种基于大数据的科技项目立项评估的方法 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN104133838A (zh) * | 2014-06-24 | 2014-11-05 | 国家电网公司 | 一种具有***检测功能的数据处理方法及*** |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106570055A (zh) * | 2016-09-27 | 2017-04-19 | 山东浪潮云服务信息科技有限公司 | 一种基于财政大数据的信息预警平台 |
CN106649251A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种中文分词的方法及装置 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN107908796A (zh) * | 2017-12-15 | 2018-04-13 | 广州市齐明软件科技有限公司 | 电子政务查重方法、装置以及计算机可读存储介质 |
CN108846031A (zh) * | 2018-05-28 | 2018-11-20 | 同方知网数字出版技术股份有限公司 | 一种面向电力行业的项目相似性对比方法 |
-
2018
- 2018-12-20 CN CN201811562264.0A patent/CN109636352A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455596A (zh) * | 2013-09-02 | 2013-12-18 | 广东省计算中心 | 一种基于大数据的科技项目立项评估的方法 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN104133838A (zh) * | 2014-06-24 | 2014-11-05 | 国家电网公司 | 一种具有***检测功能的数据处理方法及*** |
CN106649251A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种中文分词的方法及装置 |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106570055A (zh) * | 2016-09-27 | 2017-04-19 | 山东浪潮云服务信息科技有限公司 | 一种基于财政大数据的信息预警平台 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN107908796A (zh) * | 2017-12-15 | 2018-04-13 | 广州市齐明软件科技有限公司 | 电子政务查重方法、装置以及计算机可读存储介质 |
CN108846031A (zh) * | 2018-05-28 | 2018-11-20 | 同方知网数字出版技术股份有限公司 | 一种面向电力行业的项目相似性对比方法 |
Non-Patent Citations (2)
Title |
---|
冉崇善等: "Simhash算法在试题查重中的应用", 《软件导刊》 * |
怎么肥事: "IK分词器实现原理", 《HTTPS://BLOG.CSDN.NET/LALA12D/ARTICLE/DETAILS/82776571》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175280A (zh) * | 2019-04-30 | 2019-08-27 | 广东鼎义互联科技股份有限公司 | 一种基于政务大数据的爬虫分析平台 |
CN110223048A (zh) * | 2019-06-18 | 2019-09-10 | 湖南晖龙集团股份有限公司 | 专项资金申报综合管理平台*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767403B (zh) | 一种文本分类方法和装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110321466B (zh) | 一种基于语义分析的证券资讯查重方法及*** | |
Krishna et al. | A feature based approach for sentiment analysis using SVM and coreference resolution | |
CN106886579B (zh) | 实时流式文本分级监控方法和装置 | |
CN110309234B (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
US10216837B1 (en) | Selecting pattern matching segments for electronic communication clustering | |
CN110147540B (zh) | 业务安全需求文档生成方法及*** | |
CN109636352A (zh) | 一种基于财政大数据的分布式内容查重预警*** | |
CN115391701A (zh) | 一种互联网内容风险分析及预警方法 | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
Giri et al. | SMS spam classification–simple deep learning models with higher accuracy using BUNOW and GloVe word embedding | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN112487181A (zh) | 关键词确定方法和相关设备 | |
CN116226315A (zh) | 基于人工智能的敏感信息检测方法、装置及相关设备 | |
CN115471148A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115238070A (zh) | 一种敏感信息的检测方法、装置、电子设备及存储介质 | |
CN110019772B (zh) | 一种文本情绪分类方法及*** | |
Povoda et al. | Genetic optimization of big data sentiment analysis | |
Arshad et al. | Using CNN to Predict the Resolution Status of Bug Reports | |
Shylaja et al. | Recurrent neural network architectures with trained document embeddings for Flagging cyber-aggressive comments on social media | |
CN116109142B (zh) | 基于人工智能的危险废物监管方法、***及装置 | |
US11809477B1 (en) | Topic focused related entity extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |