CN110069686A - 用户行为分析方法、装置、计算机装置及存储介质 - Google Patents
用户行为分析方法、装置、计算机装置及存储介质 Download PDFInfo
- Publication number
- CN110069686A CN110069686A CN201910199906.3A CN201910199906A CN110069686A CN 110069686 A CN110069686 A CN 110069686A CN 201910199906 A CN201910199906 A CN 201910199906A CN 110069686 A CN110069686 A CN 110069686A
- Authority
- CN
- China
- Prior art keywords
- forum
- user behavior
- publisher
- wool party
- wool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 49
- 238000009434 installation Methods 0.000 title claims abstract description 24
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 210000002268 wool Anatomy 0.000 claims abstract description 190
- 239000000284 extract Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 54
- 238000010348 incorporation Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 description 102
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 241001494479 Pecora Species 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013497 data interchange Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 239000011449 brick Substances 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0224—Discounts or incentives, e.g. coupons or rebates based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种用户行为分析方法、装置、计算机装置及存储介质。所述用户行为分析方法包括:获取羊毛党论坛的相关信息;根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;识别所述网页文件中的特定敏感词;确定所述特定敏感词的发布者;获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。本发明可以识别出羊毛党论坛中的羊毛党并对其行为进行预测,有助于避免羊毛党的恶意刷单作弊行为导致的经济损失。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种用户行为分析方法、装置、计算机装置及存储介质。
背景技术
随着互联网的蓬勃发展,互联网公司推出了各种各样的营销活动,以达到吸引新客户留住老客户的效果。但是营销活动经常被“羊毛党”以刷单的方式破坏。羊毛党是指活跃在各互联网金融平台上,搜集各大电子商城、银行、实体店等各渠道的优惠促销活动、免费业务之类的信息,通过恶意刷单等作弊行为获取利益的人。羊毛党的恶意刷单等作弊行为对互联网公司造成直接经济损失,对参与活动的真实用户造成不公平。
目前,对于如何分辨羊毛党的作弊行为并没有一个有效的解决方法。如何识别羊毛党并分析其行为,以降低互联网公司的经济损失,是相关技术人员目前需要解决的技术问题。
发明内容
鉴于以上内容,有必要提出一种用户行为分析方法、装置、计算机装置和储存介质,可以识别出羊毛党论坛中的羊毛党并对其行为进行预测,有助于避免羊毛党的恶意刷单作弊行为导致的经济损失。
本申请的第一方面提供一种用户行为分析方法,所述方法包括:
获取羊毛党论坛的相关信息;
根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别所述网页文件中的特定敏感词;
确定所述特定敏感词的发布者;
获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
另一种可能的实现方式中,所述根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据包括:
生成面向所述羊毛党论坛的API接口的种子URL以及后续的URL;
向所述羊毛党论坛的API接口发送HTTP请求,请求访问所述API接口;
对所述羊毛党论坛提供的数据内容进行分析和识别,以查看所述数据内容;
判断所述数据内容是否为预定信息内容;
若所述数据内容为预定信息内容,则抓取所述数据内容;
将抓取的数据内容作为所述网页数据保存到本地。
另一种可能的实现方式中,所述识别所述网页文件中的特定敏感词包括:
识别所述网页文件中的文本数据中的预设关键字;
将所述预设关键字符从所述文本数据中删除;
将删除所述预设关键字符之后的所述文本数据拆分为词语;
将所述词语输入至训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
另一种可能的实现方式中,所述词嵌入模型的训练包括:
获取所述词嵌入模型的训练集和测试集;
将所述训练集输入至所述词嵌入模型进行预训练;
将所述测试集输入至预训练好的所述词嵌入模型进行测试;
根据所述词嵌入模型的测试结果对所述词嵌入模型进行微调。
另一种可能的实现方式中,所述根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为包括:
通过隐马尔可夫模型预测所述发布者在所述预定时间段之后的用户行为。
另一种可能的实现方式中,所述方法还包括:
将所述发布者加入用户黑名单。
另一种可能的实现方式中,所述方法还包括:
识别所述发布者的代理IP;
将所述代理IP列入代理IP黑名单。
本申请的第二方面提供一种用户行为分析装置,其特征在于,所述装置包括:
第一获取模块,用于获取羊毛党论坛的相关信息;
提取模块,用于根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别模块,用于识别所述网页文件中的特定敏感词;
确定模块,用于确定所述特定敏感词的发布者;
第二获取模块,用于获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
预测模块,用于根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述用户行为分析方法。
本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述用户行为分析方法。
本发明获取羊毛党论坛的相关信息;根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;识别所述网页文件中的特定敏感词;确定所述特定敏感词的发布者;获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。本发明可以识别出羊毛党论坛中的羊毛党并对其行为进行预测,有助于避免羊毛党的恶意刷单作弊行为导致的经济损失。
附图说明
图1是本发明实施例提供的用户行为分析方法的流程图。
图2是本发明实施例提供的用户行为分析装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的用户行为分析方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的用户行为分析方法的流程图。所述用户行为分析方法应用于计算机装置。所述用户行为分析方法根据羊毛党论坛的网页文件识别出羊毛党论坛中的羊毛党,并对其行为进行预测,以避免羊毛党的恶意刷单作弊行为导致的经济损失。
如图1所示,所述用户行为分析方法包括:
步骤101,获取羊毛党论坛的相关信息。
羊毛党论坛可以是一个,也可以是多个。羊毛党论坛可以包括各种羊毛党社交平台,例如百度贴吧的羊毛党吧、P2P羊毛党论坛,如羊毛客、券妈妈、网贷薅羊毛等。
可以建立羊毛党论坛的数据库,在所述数据库中记录羊毛党论坛的相关信息。
在本实施例中,羊毛党论坛的相关信息可以包括:论坛域名、论坛IP、论坛URL。URL为Uniform Resource Locator的缩写,即统一资源定位符。所述论坛URL可以是羊毛党论坛的主页的URL,也可以是羊毛党论坛的子论坛的URL,还可以是羊毛党论坛的特定版块的URL。在其他的实施例中,所述羊毛党论坛的相关信息还可以包括其他信息,例如论坛别称(网友对论坛的简称或其他叫法)、论坛所属公司、关联论坛、相关社群(例如羊毛党的QQ群、微信群等)。
可以定期对羊毛党论坛的相关信息进行更新维护。
步骤102,根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取羊毛党论坛中的网页文件,从网页文件中提取网页数据。所述羊毛党论坛包括多个帖子和评论,读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据主要就是读取所述羊毛党论坛的帖子和评论,从所述帖子和评论中提取数据。
所述网页数据可以包括网址、帖子的标题、发布时间、作者、来源、正文、阅读量、评论数、评论者、评论时间等。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用羊毛党论坛开放的API接口抓取所述网页数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。羊毛党论坛开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据。利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据的具体过程如下:
(1)生成面向所述羊毛党论坛的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对羊毛党论坛的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述羊毛党论坛的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述羊毛党论坛的API接口发送HTTP请求。当羊毛党论坛同意获取其提供的网页数据时,返回HTTP响应,以告知可以进行获取网页数据的操作。
(3)对所述羊毛党论坛提供的数据内容进行分析和识别,以查看所述数据内容。
羊毛党论坛提供特定格式的数据内容,需要对羊毛党论坛提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述羊毛党论坛的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到特定的网页数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述网页数据保存到本地。
可以在计算设备上创建数据库,将所述网页数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据,可以避免下载无关网页,高效地获取网页数据,从而提高用户行为分析的效率。
步骤103,识别所述网页文件中的特定敏感词。
在本实施例中,本方法用于对金融领域的羊毛党进行用户行为分析,所述特定敏感词可以包括金融机构和金融产品。例如,金融机构为陆金所、京东金融,金融产品为日添利、月月盈。
在其他的实施例中,本方法可以用于对其他领域的羊毛党进行用户行为分析,所述特定敏感词还可以包括其他领域的敏感词。
可以建立敏感词识别模型,利用训练样本对所述敏感词识别模型进行训练,利用训练好的敏感词识别模型识别所述网页文件中的特定敏感词。
在本实施例中,可以使用词嵌入模型识别所述网页文件中的特定敏感词。
具体过程如下:
(1)获取词嵌入模型的训练集和测试集。
所述训练集是已打好标签,即已标注特定敏感词的文本数据。所述测试集是未打标签,即未标注特定敏感词的文本数据。
为了提高模型的精确度和鲁棒性,可以对训练集和测试集进行预处理。
对训练集的预处理可以包括剔除所述训练集中与特定敏感词所属领域(例如金融领域)关联度小于预设第一关联度阈值的文本数据,同时保留所述训练集中与特定敏感词所属领域关联度大于预设第二关联度阈值的文本数据。
可以预先设置第一关联度阈值和第二关联度阈值,其中,所述第一关联度阈值(例如30%)小于第二关联度阈值(例如70%)。
对测试集的预处理可以包括识别所述测试样本中的预设关键字符(例如标点符号、英文字母、数字或者一些特殊字符等);将所识别出的预设关键字符从所述未打标签的文本数据中删除;将删除所述预设关键字符之后的文本数据拆分为词语;创建字典对每个词语进行映射。
所述创建字典对每个单词进行映射是指计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典。利用嵌入映射的方法,将词语出现的次数和词语表示为高维向量,并且通过嵌入映射后,使得词语中表示相近的词语的高维向量相似度很高,即使得相近的词语具有相似的语义。
(2)将所述训练集输入至词嵌入模型中进行预训练。
所述训练集已打好标签,因此,对词嵌入模型的训练是有监督的训练集,将所述训练集输入至预先设置好的词嵌入模型中进行预训练。
(3)将所述测试集输入至预训练好的所述词嵌入模型中进行测试。
所述测试集未打标签,将未打标签的测试集输入至已经预训练好的词嵌入模型中进行打标。对测试集中的文本数据进行标签并循环,根据词向量的相关性从中选出最优结果,从而实现对无标签文本数据的标记。
(4)根据测试结果对所述词嵌入模型进行微调,得到训练好的词嵌入模型。
对所述词嵌入模型进行微调就是将在所述训练集上预训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
对所述词嵌入模型进行微调的方式为:固定网络前面几层的权值,微调网络后面几层的权值。这样做主要是为了避免文本数据过小造成过拟合现象,网络前几层一般包含更多的一般特征,对于许多任务而言非常重要,但是后面几层的特征学习注重高层特征,不同的文本数据集间差异较大。
(5)将网页文件中的文本数据输入训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
具体包括:识别所述网页文件中的文本数据中的预设关键字符;将所识别出的预设关键字符从所述网页文件中的文本数据中删除;将删除所述预设关键字符之后的文本数据拆分为词语;将所述词语输入至训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
步骤104,确定所述特定敏感词的发布者。
特定敏感词的发布者即为羊毛党。
特定敏感词可以包含在羊毛党论坛的帖子中,也可以包括在评论中。因此,所述特定敏感词的发布者可以是帖子的作者,帖子的转发者、也可以是帖子的评论者。可以从所述网页数据中查找所述特定敏感词的发布者。
例如,所述特定敏感词包含在帖子中,则从所述网页数据中查找所述帖子的作者或转发者,所述帖子的作者或转发者就是所述特定敏感词的发布者。
又如,所述特定敏感词包含在评论中,则从所述网页数据中查找所述评论的评论者,所述评论的评论者就是所述特定敏感词的发布者。
步骤105,获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
所述用户行为可以包括发帖、转贴、评论、加好友、加关注等。
可以从提取的网页数据中获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
或者,可以获取所述发布者在所述羊毛党论坛的操作记录,从所述操作记录中获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
步骤106,根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
预测所述发布者在所述预定时间段之后的用户行为简单地说就是根据当前行为(A)的概率加上一些关联行为(B)的概率去预测下一次行为(A)的概率。比如当前用户发帖概率是0.6,转帖的概率是0.2,评论的概率是0.2。可以根据该用户的登录论坛的时间段,比如登录的时间段是08:00—12:00,对应的发帖概率是0.5,转帖概率是0.3,评论概率是0.2等,同时也借用浏览帖子的内容等关联信息,可以预判出该用户接下去会进行发帖,转帖,评论的概率为多少。
在本实施例中,可以通过隐马尔可夫模型(HMM)预测所述发布者在所述预定时间段之后的用户行为。也就是使用隐马尔可夫模型来对所述发布者的用户行为进行建模,利用隐马尔可夫模型的模型参数对所述发布者的用户行为进行预测。
所述通过隐马尔可夫模型预测所述发布者在所述预定时间段之后的用户行为的具体步骤可以包括:
(1)训练HMM
训练的原理就是首先初始化一个HMM,然后利用梯度下降的思想,通过已知的训练集不断地去减小该初始值的误差,使之更精确地描述训练样本,最后得到一个稳定且收敛的HMM。
HMM的训练过程可以表示为:
给定可观察状态序列O={o1,o2,...,oT},找到一个最优的参数模型λ(π,A,B),使得P(O|λ)最大。
可以采用Baum-Welch算法进行训练HMM。训练HMM的具体过程可以包括:
(A)初始化模型λ(π,A,B),随机给定参数πi,aij,bjk,使这些参数满足条件
(B)当迭代次数小于指定阈值,根据公式(1)、(2)、(3)更新参数,得到π*、从而得到一个新的HMM,表示为λ*=(π*,A*,B*),
其中,ξt(i,j)表示在t时刻隐含状态为Si,且下一时刻转移到Sj的概率,γt(i)表示在t时刻隐含状态为Si,则下一时刻从Si转移到所有状态的概率之和;
(C)当迭代次数达到指定次数时,停止迭代过程,返回模型λ*。
(2)预测
利用HMM预测发布者的行为的过程主要分为两步,一是计算所有可能的新序列在该HMM中出现的概率,该概率通过前向算法计算得到,其基本思路是依次计算各个局部序列的前向概率,累积,最后计算整个候选序列的前向概率;二是选取概率最大的序列所对应的操作,就是预测的下一步操作。
本实施例提供了一种用户行为分析方法,所述用户行为是网络用户在网络平台上的社交行为。所述网络平台包括羊毛党论坛、社群等,所述用户行为包括发帖、转帖、评论等。所述用户行为分析方法包括:获取羊毛党论坛的相关信息;根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;识别所述网页文件中的特定敏感词;确定所述特定敏感词的发布者;获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。本实施例根据羊毛党论坛的网页文件识别出羊毛党论坛中的羊毛党,并对其行为进行预测,以避免羊毛党的恶意刷单作弊行为导致的经济损失。
在另一实施例中,所述用户行为分析方法还可以包括:将所述特定敏感词的发布者加入用户黑名单。
在另一实施例中,所述用户行为分析方法还可以包括:识别所述特定敏感词的发布者的代理IP。所述用户行为分析方法还可以包括:将所述特定敏感词的发布者的代理IP列入代理IP黑名单。
实施例二
图2是本发明实施例二提供的用户行为分析装置的结构图。所述用户行为分析装置20应用于计算机装置。所述用户行为分析装置20根据羊毛党论坛的网页文件识别出羊毛党论坛中的羊毛党,并对其行为进行预测,以避免羊毛党的恶意刷单作弊行为导致的经济损失。
如图2所示,所述用户行为分析装置20可以包括第一获取模块201、提取模块202、识别模块203、确定模块204、第二获取模块205、预测模块206。
第一获取模块201,用于获取羊毛党论坛的相关信息。
羊毛党论坛可以是一个,也可以是多个。羊毛党论坛可以包括各种羊毛党社交平台,例如百度贴吧的羊毛党吧、P2P羊毛党论坛,如羊毛客、券妈妈、网贷薅羊毛等。
可以建立羊毛党论坛的数据库,在所述数据库中记录羊毛党论坛的相关信息。
在本实施例中,羊毛党论坛的相关信息可以包括:论坛域名、论坛IP、论坛URL。URL为Uniform Resource Locator的缩写,即统一资源定位符。所述论坛URL可以是羊毛党论坛的主页的URL,也可以是羊毛党论坛的子论坛的URL,还可以是羊毛党论坛的特定版块的URL。在其他的实施例中,所述羊毛党论坛的相关信息还可以包括其他信息,例如论坛别称(网友对论坛的简称或其他叫法)、论坛所属公司、关联论坛、相关社群(例如羊毛党的QQ群、微信群等)。
可以定期对羊毛党论坛的相关信息进行更新维护。
提取模块202,用于根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据。
网络爬虫是可以自动提取网页数据信息内容的应用程序。网络爬虫通常是从一个或者是若干个初始网页的URL(也称种子URL)开始,获取初始网页的URL,依照特定的算法和策略(例如深度优先搜索策略、广度优先搜索策略或启发式搜索策略),在对网页进行抓取的过程中,不断地从当前的网页中抽取新的URL放入到相应的队列中,直到满足停止条件为止。网络爬虫深度遍历网站的资源,将网站的资源抓取到本地,具体的方法就是分析网站每一个有效的URL,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息。
可以使用开源性爬虫框架编写网络爬虫,通过网络爬虫搜索并读取羊毛党论坛中的网页文件,从网页文件中提取网页数据。所述羊毛党论坛包括多个帖子和评论,读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据主要就是读取所述羊毛党论坛的帖子和评论,从所述帖子和评论中提取数据。
所述网页数据可以包括网址、帖子的标题、发布时间、作者、来源、正文、阅读量、评论数、评论者、评论时间等。
在本实施例中,可以使用Scrapy框架编写所述网络爬虫。在其他的实施例中,还可以使用PySpider、Nutch、Crawler4j、WebMagic、WebCollector或其他的开源性爬虫框架编写所述网络爬虫。
可以利用羊毛党论坛开放的API接口抓取所述网页数据。API是应用程序接口(application interface)的缩写,通过API接口可以实现计算机软件之间的相互通信。羊毛党论坛开放的API接口可以返回JSON格式或者XML格式的数据。
在一具体实施例中,可以利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据。利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据的具体过程如下:
(1)生成面向所述羊毛党论坛的API接口的种子URL以及后续的URL。
种子URL是网络爬虫进行一切工作的基础和前提。种子URL可以是一个也可以是多个。
可以对羊毛党论坛的URL的结构特点进行分析,根据URL的结构特点得到后续的URL。
(2)向所述羊毛党论坛的API接口发送HTTP请求,请求访问所述API接口。
可以以GET方式向所述羊毛党论坛的API接口发送HTTP请求。当羊毛党论坛同意获取其提供的网页数据时,返回HTTP响应,以告知可以进行获取网页数据的操作。
(3)对所述羊毛党论坛提供的数据内容进行分析和识别,以查看所述数据内容。
羊毛党论坛提供特定格式的数据内容,需要对羊毛党论坛提供的特定格式的数据内容进行分析和识别,来查看所述数据内容。例如,所述羊毛党论坛的API接口提供的数据格式为JSON格式。JSON是一种数据交换格式,使用了类似于C语言的语法习惯。对该JSON格式的数据内容进行分析和识别,来查看所述数据内容。
(4)判断所述数据内容是否为预定信息内容。
为了得到特定的网页数据,需要判断所述数据内容是否为预定信息内容。若所述数据内容不是预定信息内容,则舍弃该数据内容,否则执行下一步骤。
(5)若所述数据内容为预定信息内容,则抓取所述数据内容。
数据抓取的最终目的是将网络数据内容抓取到本地。对于JSON格式的数据内容,在抓取所述数据内容时可以采用深度优先搜索策略进行状态空间搜索。
(6)将抓取的数据内容作为所述网页数据保存到本地。
可以在计算设备上创建数据库,将所述网页数据保存到所述数据库中。
传统的网络爬虫都是首先设定一个或者多个入口URL,在抓取网页的过程中,按照抓取的策略,从当前网页上提取出新的URL放入队列,以便获取URL对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口URL,直到爬行完毕。随着网页数量的剧增,传统的网络爬虫会下载大量的无关网页。利用羊毛党论坛开放的API接口,通过网络爬虫抓取所述网页数据,可以避免下载无关网页,高效地获取网页数据,从而提高用户行为分析的效率。
识别模块203,用于识别所述网页文件中的特定敏感词。
在本实施例中,本方法用于对金融领域的羊毛党进行用户行为分析,所述特定敏感词可以包括金融机构和金融产品。例如,金融机构为陆金所、京东金融,金融产品为日添利、月月盈。
在其他的实施例中,本方法可以用于对其他领域的羊毛党进行用户行为分析,所述特定敏感词还可以包括其他领域的敏感词。
可以建立敏感词识别模型,利用训练样本对所述敏感词识别模型进行训练,利用训练好的敏感词识别模型识别所述网页文件中的特定敏感词。
在本实施例中,可以使用词嵌入模型识别所述网页文件中的特定敏感词。
具体过程如下:
(1)获取词嵌入模型的训练集和测试集。
所述训练集是已打好标签,即已标注特定敏感词的文本数据。所述测试集是未打标签,即未标注特定敏感词的文本数据。
为了提高模型的精确度和鲁棒性,可以对训练集和测试集进行预处理。
对训练集的预处理可以包括剔除所述训练集中与特定敏感词所属领域(例如金融领域)关联度小于预设第一关联度阈值的文本数据,同时保留所述训练集中与特定敏感词所属领域关联度大于预设第二关联度阈值的文本数据。
可以预先设置第一关联度阈值和第二关联度阈值,其中,所述第一关联度阈值(例如30%)小于第二关联度阈值(例如70%)。
对测试集的预处理可以包括识别所述测试样本中的预设关键字符(例如标点符号、英文字母、数字或者一些特殊字符等);将所识别出的预设关键字符从所述未打标签的文本数据中删除;将删除所述预设关键字符之后的文本数据拆分为词语;创建字典对每个词语进行映射。
所述创建字典对每个单词进行映射是指计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典。利用嵌入映射的方法,将词语出现的次数和词语表示为高维向量,并且通过嵌入映射后,使得词语中表示相近的词语的高维向量相似度很高,即使得相近的词语具有相似的语义。
(2)将所述训练集输入至词嵌入模型中进行预训练。
所述训练集已打好标签,因此,对词嵌入模型的训练是有监督的训练集,将所述训练集输入至预先设置好的词嵌入模型中进行预训练。
(3)将所述测试集输入至预训练好的所述词嵌入模型中进行测试。
所述测试集未打标签,将未打标签的测试集输入至已经预训练好的词嵌入模型中进行打标。对测试集中的文本数据进行标签并循环,根据词向量的相关性从中选出最优结果,从而实现对无标签文本数据的标记。
(4)根据测试结果对所述词嵌入模型进行微调,得到训练好的词嵌入模型。
对所述词嵌入模型进行微调就是将在所述训练集上预训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
对所述词嵌入模型进行微调的方式为:固定网络前面几层的权值,微调网络后面几层的权值。这样做主要是为了避免文本数据过小造成过拟合现象,网络前几层一般包含更多的一般特征,对于许多任务而言非常重要,但是后面几层的特征学习注重高层特征,不同的文本数据集间差异较大。
(5)将网页文件中的文本数据输入训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
具体包括:识别所述网页文件中的文本数据中的预设关键字符;将所识别出的预设关键字符从所述网页文件中的文本数据中删除;将删除所述预设关键字符之后的文本数据拆分为词语;将所述词语输入至训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
确定模块204,用于确定所述特定敏感词的发布者。
特定敏感词可以包含在羊毛党论坛的帖子中,也可以包括在评论中。因此,所述特定敏感词的发布者可以是帖子的作者,帖子的转发者、也可以是帖子的评论者。可以从所述网页数据中查找所述特定敏感词的发布者。
例如,所述特定敏感词包含在帖子中,则从所述网页数据中查找所述帖子的作者或转发者,所述帖子的作者或转发者就是所述特定敏感词的发布者。
又如,所述特定敏感词包含在评论中,则从所述网页数据中查找所述评论的评论者,所述评论的评论者就是所述特定敏感词的发布者。
第二获取模块205,用于获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
所述用户行为可以包括发帖、转贴、评论、加好友、加关注等。
可以从提取的网页数据中获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
或者,可以获取所述发布者在所述羊毛党论坛的操作记录,从所述操作记录中获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为。
预测模块206,用于根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
预测所述发布者在所述预定时间段之后的用户行为简单地说就是根据当前行为(A)的概率加上一些关联行为(B)的概率去预测下一次行为(A)的概率。比如当前用户发帖概率是0.6,转帖的概率是0.2,评论的概率是0.2。可以根据该用户的登录论坛的时间段,比如登录的时间段是08:00—12:00,对应的发帖概率是0.5,转帖概率是0.3,评论概率是0.2等,同时也借用浏览帖子的内容等关联信息,可以预判出该用户接下去会进行发帖,转帖,评论的概率为多少。
在本实施例中,可以通过隐马尔可夫模型(HMM)预测所述发布者在所述预定时间段之后的用户行为。也就是使用隐马尔可夫模型来对所述发布者的用户行为进行建模,利用隐马尔可夫模型的模型参数对所述发布者的用户行为进行预测。
所述通过隐马尔可夫模型预测所述发布者在所述预定时间段之后的用户行为的具体步骤可以包括:
(1)训练HMM
训练的原理就是首先初始化一个HMM,然后利用梯度下降的思想,通过已知的训练集不断地去减小该初始值的误差,使之更精确地描述训练样本,最后得到一个稳定且收敛的HMM。
HMM的训练过程可以表示为:
给定可观察状态序列O={o1,o2,...,OT},找到一个最优的参数模型λ(π,A,B),使得P(O|λ)最大。
可以采用Baum-Welch算法进行训练HMM。训练HMM的具体过程可以包括:
(A)初始化模型λ(π,A,B),随机给定参数πi,aij,bjk,使这些参数满足条件
(B)当迭代次数小于指定阈值,根据公式(1)、(2)、(3)更新参数,得到π*、从而得到一个新的HMM,表示为λ*=(π*,A*,B*),
其中,ξt(i,j)表示在t时刻隐含状态为Si,且下一时刻转移到Sj的概率,γt(i)表示在t时刻隐含状态为Si,则下一时刻从Si转移到所有状态的概率之和;
(C)当迭代次数达到指定次数时,停止迭代过程,返回模型λ*。
(2)预测
利用HMM预测发布者的行为的过程主要分为两步,一是计算所有可能的新序列在该HMM中出现的概率,该概率通过前向算法计算得到,其基本思路是依次计算各个局部序列的前向概率,累积,最后计算整个候选序列的前向概率;二是选取概率最大的序列所对应的操作,就是预测的下一步操作。
本实施例供了一种用户行为分析装置20。所述用户行为是网络用户在网络平台上的社交行为。所述网络平台包括羊毛党论坛、社群等,所述用户行为包括发帖、转帖、评论等。所述用户行为分析装置20获取羊毛党论坛的相关信息;根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;识别所述网页文件中的特定敏感词;确定所述特定敏感词的发布者;获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。本实施例根据羊毛党论坛的网页文件识别出羊毛党论坛中的羊毛党,并对其行为进行预测,以避免羊毛党的恶意刷单作弊行为导致的经济损失。
在另一实施例中,所述用户行为分析装置20还可以包括:导入单元,将所述特定敏感词的发布者加入用户黑名单。
在另一实施例中,所述用户行为分析装置20还可以包括:处理单元,识别所述特定敏感词的发布者的代理IP。所述用户行为分析方法还可以包括:将所述特定敏感词的发布者的代理IP列入代理IP黑名单。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述用户行为分析方法实施例中的步骤,例如图1所示的步骤101-106:
步骤101,获取羊毛党论坛的相关信息;
步骤102,根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
步骤103,识别所述网页文件中的特定敏感词;
步骤104,确定所述特定敏感词的发布者;
步骤105,获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
步骤106,根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-206:
第一获取模块201,用于获取羊毛党论坛的相关信息;
提取模块202,用于根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别模块203,用于识别所述网页文件中的特定敏感词;
确定模块204,用于确定所述特定敏感词的发布者;
第二获取模块205,用于获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
预测模块206,用于根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
实施例四
图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如用户行为分析程序。所述处理器302执行所述计算机程序303时实现上述用户行为分析方法实施例中的步骤,例如图1所示的步骤101-106:
步骤101,获取羊毛党论坛的相关信息;
步骤102,根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
步骤103,识别所述网页文件中的特定敏感词;
步骤104,确定所述特定敏感词的发布者;
步骤105,获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
步骤106,根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
或者,所述处理器302执行所述计算机程序303时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-206:
第一获取模块201,用于获取羊毛党论坛的相关信息;
提取模块202,用于根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别模块203,用于识别所述网页文件中的特定敏感词;
确定模块204,用于确定所述特定敏感词的发布者;
第二获取模块205,用于获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
预测模块206,用于根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机装置30中的执行过程。例如,所述计算机程序303可以被分割成图2中的第一获取模块201、提取模块202、识别模块203、确定模块204、第二获取模块205、预测模块206,各模块具体功能参见实施例二。
所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置30的示例,并不构成对计算机装置30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机装置30的控制中心,利用各种接口和线路连接整个计算机装置30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置30集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种用户行为分析方法,其特征在于,所述方法包括:
获取羊毛党论坛的相关信息;
根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别所述网页文件中的特定敏感词;
确定所述特定敏感词的发布者;
获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
2.如权利要求1所述的用户行为分析方法,其特征在于,所述根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据包括:
生成面向所述羊毛党论坛的API接口的种子URL以及后续的URL;
向所述羊毛党论坛的API接口发送HTTP请求,请求访问所述API接口;
对所述羊毛党论坛提供的数据内容进行分析和识别,以查看所述数据内容;
判断所述数据内容是否为预定信息内容;
若所述数据内容为预定信息内容,则抓取所述数据内容;
将抓取的数据内容作为所述网页数据保存到本地。
3.如权利要求1所述的用户行为分析方法,其特征在于,所述识别所述网页文件中的特定敏感词包括:
识别所述网页文件中的文本数据中的预设关键字符;
将所述预设关键字符从所述文本数据中删除;
将删除所述预设关键字符之后的所述文本数据拆分为词语;
将所述词语输入至训练好的词嵌入模型进行打标,得到所述网页文件中的特定敏感词。
4.如权利要求3所述的用户行为分析方法,其特征在于,所述词嵌入模型的训练包括:
获取所述词嵌入模型的训练集和测试集;
将所述训练集输入至所述词嵌入模型进行预训练;
将所述测试集输入至预训练好的所述词嵌入模型进行测试;
根据所述词嵌入模型的测试结果对所述词嵌入模型进行微调。
5.如权利要求1所述的用户行为分析方法,其特征在于,所述根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为包括:
通过隐马尔可夫模型预测所述发布者在所述预定时间段之后的用户行为。
6.如权利要求1-5中任一项所述的用户行为分析方法,其特征在于,所述方法还包括:
将所述发布者加入用户黑名单。
7.如权利要求1-5中任一项所述的用户行为分析方法,其特征在于,所述方法还包括:
识别所述发布者的代理IP;
将所述代理IP列入代理IP黑名单。
8.一种用户行为分析装置,其特征在于,所述装置包括:
第一获取模块,用于获取羊毛党论坛的相关信息;
提取模块,用于根据所述羊毛党论坛的相关信息,通过网络爬虫搜索并读取所述羊毛党论坛的网页文件,从所述网页文件中提取网页数据;
识别模块,用于识别所述网页文件中的特定敏感词;
确定模块,用于确定所述特定敏感词的发布者;
第二获取模块,用于获取所述发布者在预定时间段内在所述羊毛党论坛的用户行为;
预测模块,用于根据所述发布者在预定时间段内在所述羊毛党论坛的用户行为,预测所述发布者在所述预定时间段之后的用户行为。
9.一种计算机装置,其特征在于:所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述用户行为分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述用户行为分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199906.3A CN110069686A (zh) | 2019-03-15 | 2019-03-15 | 用户行为分析方法、装置、计算机装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199906.3A CN110069686A (zh) | 2019-03-15 | 2019-03-15 | 用户行为分析方法、装置、计算机装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110069686A true CN110069686A (zh) | 2019-07-30 |
Family
ID=67366329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199906.3A Pending CN110069686A (zh) | 2019-03-15 | 2019-03-15 | 用户行为分析方法、装置、计算机装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069686A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN113506150A (zh) * | 2021-06-24 | 2021-10-15 | 深圳市盈捷创想科技有限公司 | 网络行为的监测方法、装置和计算机可读存储介质 |
CN113743619A (zh) * | 2020-05-27 | 2021-12-03 | 西交利物浦大学 | 基于关联网络行为的作弊用户识别方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903921B1 (en) * | 2010-04-30 | 2014-12-02 | Intuit Inc. | Methods, systems, and articles of manufacture for analyzing behavior of internet forum participants |
CN107741967A (zh) * | 2017-10-09 | 2018-02-27 | 北京京东尚科信息技术有限公司 | 用于行为数据处理的方法、装置以及电子设备 |
CN107870986A (zh) * | 2017-10-13 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质 |
CN108052586A (zh) * | 2017-12-11 | 2018-05-18 | 上海壹账通金融科技有限公司 | 舆情分析方法、***、计算机设备和存储介质 |
CN108550052A (zh) * | 2018-04-03 | 2018-09-18 | 杭州呯嘭智能技术有限公司 | 基于用户行为数据特征的刷单检测方法及*** |
CN109033195A (zh) * | 2018-06-28 | 2018-12-18 | 上海盛付通电子支付服务有限公司 | 网页信息的获取方法、获取设备及计算机可读介质 |
-
2019
- 2019-03-15 CN CN201910199906.3A patent/CN110069686A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903921B1 (en) * | 2010-04-30 | 2014-12-02 | Intuit Inc. | Methods, systems, and articles of manufacture for analyzing behavior of internet forum participants |
CN107741967A (zh) * | 2017-10-09 | 2018-02-27 | 北京京东尚科信息技术有限公司 | 用于行为数据处理的方法、装置以及电子设备 |
CN107870986A (zh) * | 2017-10-13 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质 |
CN108052586A (zh) * | 2017-12-11 | 2018-05-18 | 上海壹账通金融科技有限公司 | 舆情分析方法、***、计算机设备和存储介质 |
CN108550052A (zh) * | 2018-04-03 | 2018-09-18 | 杭州呯嘭智能技术有限公司 | 基于用户行为数据特征的刷单检测方法及*** |
CN109033195A (zh) * | 2018-06-28 | 2018-12-18 | 上海盛付通电子支付服务有限公司 | 网页信息的获取方法、获取设备及计算机可读介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743619A (zh) * | 2020-05-27 | 2021-12-03 | 西交利物浦大学 | 基于关联网络行为的作弊用户识别方法和装置 |
CN113743619B (zh) * | 2020-05-27 | 2023-09-29 | 西交利物浦大学 | 基于关联网络行为的作弊用户识别方法和装置 |
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN112686036B (zh) * | 2020-08-18 | 2022-04-01 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN113506150A (zh) * | 2021-06-24 | 2021-10-15 | 深圳市盈捷创想科技有限公司 | 网络行为的监测方法、装置和计算机可读存储介质 |
CN113506150B (zh) * | 2021-06-24 | 2023-12-05 | 深圳市盈捷创想科技有限公司 | 网络行为的监测方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bucur | Using opinion mining techniques in tourism | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
Fogués et al. | BFF: A tool for eliciting tie strength and user communities in social networking services | |
Abuhay et al. | Analysis of publication activity of computational science society in 2001–2017 using topic modelling and graph theory | |
CN111885399A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
Hao et al. | Semantic patterns for user‐interactive question answering | |
Sharma et al. | Twitter sentiment analysis for brand reputation of smart phone companies in India | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
Akdag Salah et al. | Flow of innovation in deviantArt: following artists on an online social network site | |
CN110489730A (zh) | 文本处理方法、装置、终端及存储介质 | |
Ali et al. | Big data sentiment analysis of Twitter data | |
CN117236624A (zh) | 一种基于动态图的Issue修复者推荐方法与装置 | |
Bhat et al. | Browser simulation-based crawler for online social network profile extraction | |
CN116823410A (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
US11558471B1 (en) | Multimedia content differentiation | |
Silva et al. | Analyzing the retweeting behavior of influencers to predict popular tweets, with and without considering their content | |
JP7236501B2 (ja) | 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置 | |
Alzahrani et al. | Contextual polarity and influence mining in online social networks | |
CN109242690A (zh) | 理财产品推荐方法、装置、计算机设备及可读存储介质 | |
Kamel et al. | Robust sentiment fusion on distribution of news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |