CN106649527A - 基于Spark Streaming的广告点击异常检测***及检测方法 - Google Patents

基于Spark Streaming的广告点击异常检测***及检测方法 Download PDF

Info

Publication number
CN106649527A
CN106649527A CN201610915505.XA CN201610915505A CN106649527A CN 106649527 A CN106649527 A CN 106649527A CN 201610915505 A CN201610915505 A CN 201610915505A CN 106649527 A CN106649527 A CN 106649527A
Authority
CN
China
Prior art keywords
data
abnormal
spark streaming
suspicion
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610915505.XA
Other languages
English (en)
Other versions
CN106649527B (zh
Inventor
刘群
谭敢锋
戴大祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201610915505.XA priority Critical patent/CN106649527B/zh
Publication of CN106649527A publication Critical patent/CN106649527A/zh
Application granted granted Critical
Publication of CN106649527B publication Critical patent/CN106649527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明请求保护一种基于Spark Streaming的广告点击异常检测***及检测方法,涉及计算机技术应用领域,在用户点击网站广告时进行日志收集,对实时收集的数据进行清洗,标准化数据字段格式,然后将标准化数据由Flume传输给Kafka数据消息***,Spark Streaming通过KNN邻近算法对数据进行分类,可以得到三大类数据异常数据、嫌疑数据、正常数据。对于异常数据和正常数据存储于数据库中,嫌疑数据发送给Kafka数据消息***,然后通过异常数据训练朴素贝叶斯分类器,使用分类器可得到嫌疑数据的分类情况,数据保存于数据库中。最后,通过正常数据量合理收取广告商费用,同时可以分析得到各个广告的热门度,给广告商提供行业发展方向,提供用户全国分布情况等信息。

Description

基于Spark Streaming的广告点击异常检测***及检测方法
技术领域
本发明涉及计算机技术应用领域,具体是基于Spark Streaming广告点击异常检测***及检测方法。
背景技术
随着数据爆发式的增长,大数据的时代已来临,安全、快速、实时、高效的数据处理,不仅能够让企业提前规避风险,而且能够及时提供数据信息为企业发展,产品生产和开发提供真实有效的依据。
然而,由于网络具有开放性,在方便大众的同时也带来了信息不真实、恶意访问、恶意攻击等。这是各个开放网站都面临的问题,怎样防止这些问题,怎样提取真实有效数据,减轻服务器恶意荷载是各个开放性网站的研究重点。其中投放广告的恶意点击就是一种典型问题,及时掌握异常数据阻止恶意点击,获得有效的广告点击数据,对开放性网站的合理收费提供依据,能够有效改善服务器负载,为投放广告商户提供合理的商业规划和业务指导具有重要意义。当下的处理技术,一般是基于离线批处理,这样的处理技术不能实时的解决线上问题,对某些需快速决策方案无法快速给出理论依据。对于实时型***如:Storm,它虽然具备实时处理数据的能力,但是在数据安全性和大批量的数据处理上效果表现弱于Spark Streaming。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。
Spark Streaming的优势在于:
·能运行在100+的结点上,并达到毫秒级延迟。
·使用基于内存的Spark作为执行引擎,具有高效和容错的特性。
·能集成Spark的批处理和交互查询。
·为实现复杂的算法提供和批处理类似的简单接口。
所以基于以上问题,结合现有的Spark大数据计算框架,及强大的电脑硬件支撑,合理的机器学习算法,能够快速、高效、精准的解决此类问题。
本发明的一个目的就是提供基于Spark Streaming广告点击异常检测***,它可以对投放于用户端的广告点击异常进行分析过滤,及时掌握有效广告点击情况,合理有效的广告投放计费,分析异常数据的行为和特征,更有助于分析用户行为和兴趣,为广告投放商提供商业规划,产品合理性等起到了事实依据,预测市场未来行情等。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够快速、高效、精准的为广告投放商提供商业规划、产品合理性等起到了事实依据、预测市场未来行情的基于SparkStreaming的广告点击异常检测***及检测方法。本发明的技术方案如下:
一种基于Spark Streaming的广告点击异常检测***,其包括数据采集单元、数据清洗单元、分布式数据消息***、第一异常数据检测单元、嫌疑数据提取单元、正常数据和异常数据分类器以及分类数据数据库单元;其中
数据采集单元,用于采集用户点击广告的日志信息;
数据清洗单元,对数据采集单元采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息***中,等待被消费;
分布式数据消息***,主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成Spark Streaming所需消费的主题数据,不同的数据生成各自Topic;
第一异常数据检测单元,采用了KNN算法对来自于分布式消息***(3)中的数据在Spark Streaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;
嫌疑数据提取单元,主要用于对第一异常数据检测单元单元产生的嫌疑数据发送回分布式数据消息***中;
正常数据和异常数据分类器,采用了朴素贝叶斯分类方法,对存储于分布式消息***的嫌疑数据进行分类,得到异常数据和正常数据;
分类数据数据库单元,包括括MySQL数据库和Redis内存数据库,其中MySQL数据库用于存储正常数据和异常数据分类器产生的正常数据和异常数据,并将异常数据映射给Redis内存数据库,便于快速训练朴素贝叶斯分类器,Redis为内存数据库,只是用于映射MySQL数据库,便于提高查询和修改的速度,设定一定周期内将数据写入到MySQL,便于永久保存。简而言之,Redis为一个中间件,为了提高速度而已。
进一步的,所述Redis内存数据库还包括将存储的异常数据用于进行训练的朴素贝叶斯分类器。
进一步的,所述数据采集单元采集用户点击广告的日志信息的设备为日志采集器Flume(分布式日志收集***),分布式数据消息***为Kafka。
进一步的,所述第一异常数据检测单元(4)采用了KNN算法的KNN函数为:
x为一条待分类日志的向量表示,di为训练集中的一条实例日志向量表示,cj为一类别;它们的相似度使用余弦相似度,待分类日志和实例日志的相似度为:
进一步的,KNN算法中,KNN分类器点击的有效性包括五个向量,第一个是“相同IP在一段时间内的点击数很多则异常”,第二个是“点击IP在广告页面的停留时间几乎可以忽略则异常”,第三个是“点击IP对于广告访问时刻异常的别于正常的人为活动时间”,第四个是“相同IP段不同地址访问同步性多次相似则异常”,第五是“对于IP行为和关注广告异常别于这个IP的以往行为和兴趣则嫌疑”,对这些样本数据对KNN进行训练,得到KNN分类器。
进一步的,所述朴素贝叶斯函数为:
其中d为属性数目,xi为x在第i个属性上的取值。
通过映射于Redis的异常数据为样本,训练该分类器,在一个周期内如:一周,就利用随机提取的20%的异常数据重新训练更新朴素贝叶斯分类器。
一种基于Spark Streaming的广告点击异常检测方法,其包括以下步骤:
1)用Flume(分布式日志收集***)采集网站用户的广告点击日志;
2)对步骤1)Flume采集到数据进行数据标准化处理,然后再由Flume将标准化数据发送到Kafka消息***中,将这类原始的数据定义为Topic1,Topic1表示等待被消费数据,即相当于定义此类数据的地址;
3)对步骤2)中等待被消费数据Topic1,通过Spark Streaming准实时计算框架在KNN算法下进行分类;
4)根据步骤3)生成的嫌疑数据、异常数据、正常数据,将嫌疑数据发送回Kafka中定义为Topic2,其余数据保存于Redis内存数据库中,然后将这些数据写入MySQL数据库中,实现MySQL的读写分离;
5)根据步骤4)将Redis中随机提取于MySQL数据库中的20%的异常数据训练朴素贝叶斯分类器,然后将Kafka中的Topic2通过Spark Streaming准实时计算框架在朴素贝叶斯算法下进行分类。
进一步的,所述步骤3)中KNN算法为:将训练样本作为参考点,计算测试样本与训练样本的距离,采用欧氏距离,得到距离中最近的值作为分类的依据。
进一步的,步骤2)中所述KNN算法的欧氏距离的公式为:
x和y表示差异个体,分别有n维特征。
本发明的优点及有益效果如下:
本发明通过Flume采集用户端投放广告点击数据,对数据进行清洗标准化,Flume对标准化后的数据发送到分布式消息***Kafka中,等待订阅被消费生成Topic1,利用大数据准实时流数据Spark Streaming计算框架结合KNN分类算法,将数据分类为嫌疑数据、异常和正常数据,然后将嫌疑数据发送回Kafka中生成Topic2,同样利用大数据准实时流数据Spark Streaming计算框架结合朴素贝叶斯分类算法,将嫌疑数据生成的Topic2进行分类,得到异常数据和正常数据。在这些过程最终分类保存在Redis中,然后存储于MySQL数据库中,实现数据库的读写分离,增加读写速度。
附图说明
图1是本发明提供优选实施例的结构示意图;
图2为Spark Streaming下的KNN分类流程图;
图3为Spark Streaming下的朴素贝叶斯分类流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明的技术方案如下:
如图1所示,一种基于Spark Streaming的广告点击异常检测***,其特征在于,包括数据采集单元1、数据清洗单元2、分布式数据消息***3、第一异常数据检测单元4、嫌疑数据提取单元5、正常数据和异常数据分类器6以及分类数据数据库单元;其中
数据采集单元1,用于采集用户点击广告的日志信息;
数据清洗单元2,对数据采集单元1采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息***3中,等待被消费;
分布式数据消息***3,主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成Spark Streaming所需消费的主题数据,不同的数据生成各自Topic;
第一异常数据检测单元4,采用了KNN算法对来自于分布式消息***3中的数据在Spark Streaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;
嫌疑数据提取单元5,主要用于对第一异常数据检测单元4单元产生的嫌疑数据发送回分布式数据消息***3中;
正常数据和异常数据分类器6,采用了朴素贝叶斯分类方法,对存储于分布式消息***3的嫌疑数据进行分类,得到异常数据和正常数据;
分类数据数据库单元,包括括MySQL数据库7和Redis内存数据库8,其中MySQL数据库7用于存储正常数据和异常数据分类器6产生的正常数据和异常数据,并将异常数据映射给Redis内存数据库,便于快速训练朴素贝叶斯分类器,Redis为内存数据库,只是用于映射MySQL数据库,便于提高查询和修改的速度,设定一定周期内将数据写入到MySQL,便于永久保存。简而言之,Redis为一个中间件,为了提高速度而已。
图2为Spark Streaming下的KNN分类流程图。
图3为Spark Streaming下的朴素贝叶斯分类流程图。
KNN分类器对标准化后存储于Kafka中的Topic1数据进行分类,生成嫌疑数据(KNN无法分类数据),正常数据和异常数据,并将生成的正常数据和异常数据存储于数据库中,将嫌疑数据发送回Kafka中生成Topic2等待朴素贝叶斯分类器的分类,朴素贝叶斯分类器通过KNN分类后的异常数据进行训练,通过结合大数据Spark Streaming的超强计算能力,使计算变得更快,结果变得更精确,最后存储分类后的数据。
本发明在网页用户点击广告后,实时过滤异常数据,并分析提取异常数据特征和行为,收集正常数据,合计计算广告投放费用,分析用户行为和兴趣,为广告投放企业制定商业策划,预测市场未来行情等。通过KNN的第一次分类达到三分类,嫌疑数据、异常数据和正常数据,然后通过异常数据对朴素贝叶斯进行训练,对嫌疑数据进行精确的划分,以达到数据的合理性,异常数据和正常数据,相关数据和非相关数据能够有力的为精确数据挖掘和预测分析提供保障。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种基于Spark Streaming的广告点击异常检测***,其特征在于,包括数据采集单元(1)、数据清洗单元(2)、分布式数据消息***(3)、第一异常数据检测单元(4)、嫌疑数据提取单元(5)、正常数据和异常数据分类器(6)以及分类数据数据库单元;其中
数据采集单元(1),用于采集用户点击广告的日志信息;
数据清洗单元(2),对数据采集单元(1)采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息***(3)中,等待被消费;
分布式数据消息***(3),主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成Spark Streaming所需消费的主题数据,不同的数据生成各自Topic;
第一异常数据检测单元(4),采用了KNN算法对来自于分布式消息***(3)中的数据在Spark Streaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;
嫌疑数据提取单元(5),主要用于对第一异常数据检测单元(4)单元产生的嫌疑数据发送回分布式数据消息***(3)中;
正常数据和异常数据分类器(6),采用了朴素贝叶斯分类方法,对存储于分布式消息***(3)的嫌疑数据进行分类,得到异常数据和正常数据;
分类数据数据库单元,包括括MySQL数据库(7)和Redis内存数据库(8),其中MySQL数据库(7)用于存储正常数据和异常数据分类器(6)产生的正常数据和异常数据,并将异常数据映射给Redis内存数据库,便于快速训练朴素贝叶斯分类器,Redis为内存数据库,只是用于映射MySQL数据库,便于提高查询和修改的速度,设定一定周期内将数据写入到MySQL,便于永久保存。
2.根据权利要求1所述的基于Spark Streaming的广告点击异常检测***,其特征在于,所述Redis内存数据库还包括将存储的异常数据用于进行训练朴素贝叶斯分类器。
3.根据权利要求1所述的基于Spark Streaming的广告点击异常检测***,其特征在于,所述数据采集单元(1)采集用户点击广告的日志信息的设备为日志采集器Flume分布式日志收集***,分布式数据消息***为Kafka。
4.根据权利要求1所述的基于Spark Streaming的广告点击异常检测***,其特征在于,所述第一异常数据检测单元(4)采用了KNN算法的KNN函数为:
x为一条待分类日志的向量表示,di为训练集中的一条实例日志向量表示,cj为一类别;它们的相似度使用余弦相似度,待分类日志和实例日志的相似度为:
c o s < x , d > = x &CenterDot; d | x | &CenterDot; | d |
其中当d属于cj时,取d为1,反之取0;距离度量使用欧几里得距离。
5.根据权利要求3所述的基于Spark Streaming的广告点击异常检测***,其特征在于,KNN算法中,KNN分类器点击的有效性包括五个向量,第一个是“相同IP在一段时间内的点击数很多则异常”,第二个是“点击IP在广告页面的停留时间几乎可以忽略则异常”,第三个是“点击IP对于广告访问时刻异常的别于正常的人为活动时间”,第四个是“相同IP段不同地址访问同步性多次相似则异常”,第五是“对于IP行为和关注广告异常别于这个IP的以往行为和兴趣则嫌疑”,用这些样本数据作为KNN代表数据,得到KNN分类器。
6.根据权利要求3所述的基于Spark Streaming的广告点击异常检测***,其特征在于,所述朴素贝叶斯函数为:
h n b ( x ) = arg max c &Element; y P ( c ) &Pi; i = 1 d P ( x i | c )
其中d为属性数目,xi为x在第i个属性上的取值,
通过映射于Redis的异常数据为样本,训练该分类器,在一个周期内如:一周,就利用随机提取的20%的异常数据重新训练更新朴素贝叶斯分类器。
7.一种基于Spark Streaming的广告点击异常检测方法,其特征在于,包括以下步骤:
1)用分布式日志收集***Flume采集网站用户的广告点击日志;
2)对步骤1)Flume采集到数据进行数据标准化处理,然后再由Flume将标准化数据发送到Kafka消息***中,将这类原始的数据定义为Topic1,Topic1表示等待被消费数据,即相当于定义此类数据的地址;
3)对步骤2)中等待被消费数据Topic1,通过Spark Streaming准实时计算框架在KNN算法下进行分类;
4)根据步骤3)生成的嫌疑数据、异常数据、正常数据,将嫌疑数据发送回Kafka中定义为Topic2,其余数据保存于Redis内存数据库中,然后将这些数据写入MySQL数据库中,实现MySQL的读写分离;
5)根据步骤4)将Redis中随机提取于MySQL数据库中的20%的异常数据训练朴素贝叶斯分类器,然后将Kafka中的Topic2通过SparkStreaming准实时计算框架在朴素贝叶斯算法下进行分类。
8.根据权利要求7所述的基于Spark Streaming的广告点击异常检测方法,其特征在于,所述步骤3)中KNN算法为:将训练样本作为参考点,计算测试样本与训练样本的距离,采用欧氏距离,得到距离中最近的值作为分类的依据。
9.根据权利要求8所述的基于Spark Streaming的广告点击异常检测方法,其特征在于,步骤2)中所述KNN算法的欧氏距离的公式为:
d i s t ( x , y ) = &Sigma; i = 1 n ( x i - y i ) 2
x和y表示差异个体,分别有n维特征。
CN201610915505.XA 2016-10-20 2016-10-20 基于Spark Streaming的广告点击异常检测***及检测方法 Active CN106649527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610915505.XA CN106649527B (zh) 2016-10-20 2016-10-20 基于Spark Streaming的广告点击异常检测***及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610915505.XA CN106649527B (zh) 2016-10-20 2016-10-20 基于Spark Streaming的广告点击异常检测***及检测方法

Publications (2)

Publication Number Publication Date
CN106649527A true CN106649527A (zh) 2017-05-10
CN106649527B CN106649527B (zh) 2021-02-09

Family

ID=58856008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610915505.XA Active CN106649527B (zh) 2016-10-20 2016-10-20 基于Spark Streaming的广告点击异常检测***及检测方法

Country Status (1)

Country Link
CN (1) CN106649527B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229564A (zh) * 2018-01-05 2018-06-29 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN109361699A (zh) * 2018-12-06 2019-02-19 四川长虹电器股份有限公司 基于Spark Streaming的异常流量检测方法
CN109388548A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN110334105A (zh) * 2019-07-12 2019-10-15 河海大学常州校区 一种基于Storm的流数据异常检测算法
CN110717771A (zh) * 2018-07-11 2020-01-21 武汉斗鱼网络科技有限公司 多维度广告实时计费方法、存储介质、电子设备及***
CN111708846A (zh) * 2020-05-14 2020-09-25 北京嗨学网教育科技股份有限公司 一种多终端的数据管理方法及装置
CN112667723A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 一种数据采集的方法及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173315A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Method and apparatus for detecting fraudulent advertising traffic initiated through an application
KR20130005597A (ko) * 2011-07-06 2013-01-16 이성진 웹사이트 방문자의 이용 내역을 고려하여 클릭당 과금되는 인터넷 광고 부정클릭에 대응하는 시스템
US20130325591A1 (en) * 2012-06-01 2013-12-05 Airpush, Inc. Methods and systems for click-fraud detection in online advertising
CN104765874A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173315A1 (en) * 2010-12-30 2012-07-05 Nokia Corporation Method and apparatus for detecting fraudulent advertising traffic initiated through an application
KR20130005597A (ko) * 2011-07-06 2013-01-16 이성진 웹사이트 방문자의 이용 내역을 고려하여 클릭당 과금되는 인터넷 광고 부정클릭에 대응하는 시스템
US20130325591A1 (en) * 2012-06-01 2013-12-05 Airpush, Inc. Methods and systems for click-fraud detection in online advertising
CN104765874A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林穗 等: "基于 Spark 的线性模型在广告投放***中的应用研究", 《广东工业大学学报》 *
董亚楠 等: "点击欺诈群体检测与发现", 《计算机应用研究》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229564A (zh) * 2018-01-05 2018-06-29 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN108829715A (zh) * 2018-05-04 2018-11-16 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN108829715B (zh) * 2018-05-04 2022-03-25 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN110717771A (zh) * 2018-07-11 2020-01-21 武汉斗鱼网络科技有限公司 多维度广告实时计费方法、存储介质、电子设备及***
CN109388548A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN109388548B (zh) * 2018-09-29 2020-12-22 京东数字科技控股有限公司 用于生成信息的方法和装置
CN109361699A (zh) * 2018-12-06 2019-02-19 四川长虹电器股份有限公司 基于Spark Streaming的异常流量检测方法
CN110334105A (zh) * 2019-07-12 2019-10-15 河海大学常州校区 一种基于Storm的流数据异常检测算法
CN111708846A (zh) * 2020-05-14 2020-09-25 北京嗨学网教育科技股份有限公司 一种多终端的数据管理方法及装置
CN112667723A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 一种数据采集的方法及终端设备

Also Published As

Publication number Publication date
CN106649527B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN106649527A (zh) 基于Spark Streaming的广告点击异常检测***及检测方法
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和***
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务***
CN104112026B (zh) 一种短信文本分类方法及***
Archak et al. Mining advertiser-specific user behavior using adfactors
CN109165950A (zh) 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
Ansah et al. Leveraging burst in twitter network communities for event detection
CN108549647A (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
Ouyang et al. Study on the classification of data streams with concept drift
CN109753408A (zh) 一种基于机器学习的流程异常预测方法
CN110533467A (zh) 基于大数据分析的用户行为分析平台及其工作方法
Jin et al. Crime-GAN: A context-based sequence generative network for crime forecasting with adversarial loss
CN104579782A (zh) 一种热点安全事件的识别方法及***
Yang et al. News topic detection based on capsule semantic graph
Qi et al. Adanomaly: adaptive anomaly detection for system logs with adversarial learning
Wang et al. The detection of network intrusion based on improved adaboost algorithm
CN103684896A (zh) 基于域名解析特征的网站作弊检测方法
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及***
Yao et al. Electricity theft detection in unbalanced sample distribution: a novel approach including a mechanism of sample augmentation
Qiao et al. Rapid trajectory clustering based on neighbor spatial analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant