CN109241387A - 抓取社交媒体信息的爬虫分析方法 - Google Patents

抓取社交媒体信息的爬虫分析方法 Download PDF

Info

Publication number
CN109241387A
CN109241387A CN201810987325.1A CN201810987325A CN109241387A CN 109241387 A CN109241387 A CN 109241387A CN 201810987325 A CN201810987325 A CN 201810987325A CN 109241387 A CN109241387 A CN 109241387A
Authority
CN
China
Prior art keywords
social media
analysis method
media information
comment information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810987325.1A
Other languages
English (en)
Inventor
余锡娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201810987325.1A priority Critical patent/CN109241387A/zh
Publication of CN109241387A publication Critical patent/CN109241387A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及爬虫爬取信息领域,针对现有爬虫技术数据量大而杂分析准确度不高的问题,提出了一种提出一种抓取社交媒体信息的爬虫分析方法,包括以下步骤:步骤一、实例化一个浏览器对象;步骤二、打开待抓取的URL,定位其中的评论信息文本及评论信息文本对应的时间,对所述评论信息文本及时间进行解析;步骤三、根据解析结果进行关键字提取。本发明通过爬取时间和评论信息文本可快速准确的获取最有商业价值的内容,根据爬取的内容进行关键字的提取可准确的得到用户对产品的评价,以便为产品的下一步改进提供准确的需求,适用于社交媒体信息的爬取。

Description

抓取社交媒体信息的爬虫分析方法
技术领域
本发明涉及爬虫爬取信息领域,特别涉及一种抓取社交媒体信息的爬虫分析方法。
背景技术
现在的社会是一个高速发展的社会,科技发达信息流通,大数据是高科技时代的产物。在人工智能引领时代发展的阶段,各行各业都需要在有效的数据内提取分析用户需求,以便更好地进行产品的下一步推广。因此如何在已有的数据基础上将数据资料进行获取和分析,就需要网络爬虫来实现,而社交媒体里含有大量的用户需求,通过网络爬虫获取数据并归纳总结,具有较高的商业价值。
现有的网络爬虫爬取的是全网页面信息作为文本分析,信息冗杂数据量大而杂,可利用性不高进而获取用户需求的准确度并不高。
发明内容
本发明所要解决的技术问题是:克服现有爬虫技术数据量大而杂分析准确度不高的问题,提出一种抓取社交媒体信息的爬虫分析方法。
本发明解决上述技术问题,采用的技术方案是:
抓取社交媒体信息的爬虫分析方法,包括以下步骤:
步骤一、实例化一个浏览器对象;
步骤二、打开待抓取的URL(统一资源定位符),定位其中的评论信息文本及评论信息文本对应的时间,对所述评论信息文本及时间进行解析;
步骤三、根据解析结果进行关键字提取。
进一步的,所述步骤一之前还包括:导入BeautifulSoup模板。
优选的,所述步骤一中的浏览器对象为Phantomjs。
进一步的,所述步骤二打开待抓取的URL后还包括:判断是否有登陆权限,如无则进行模拟登陆。
进一步的所述步骤二打开待抓取的URL后还包括:判断是否有获取所述时间和评论信息文本的权限,如有权限则定位时间和评论信息文本并进行解析,否则退出本轮爬取流程。
进一步的,所述步骤二中还包括:将解析结果保存到excel文档中。
优选的,所述步骤三中关键字提取采用如下方法:
a)将所述解析结果按规则存放在多个文档中,对所有文档进行分词,保存每个词的词频;
b)遍历所有文档得到单个词的逆向文件频率;
c)根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词。
优选的,所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。
本发明的有益效果是:通过爬取时间和评论信息文本可快速准确的获取最有商业价值的内容,根据爬取的内容进行关键字的提取可准确的得到用户对产品的评价,以便为产品的下一步改进提供准确的需求。
附图说明
图1为本发明实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。
如图1所示,抓取社交媒体信息的爬虫分析方法,包括以下步骤:
步骤一、实例化一个浏览器对象;
步骤二、打开待抓取的URL,定位其中的评论信息文本及评论信息文本对应的时间,对所述评论信息文本及时间进行解析;其中,定位评论信息文本对应的时间,可以针对不同的时间段进行后续关键字的提取,使得数据分析更加可靠。
步骤三、根据解析结果进行关键字提取。
为了更方便的实现网页信息的抓取并获取内容,所述步骤一之前还包括:导入BeautifulSoup模板,该BeautifulSoup模板为一个用于提取网页数据的Python库。
为了更方便在页面植入脚本,所述步骤一中的浏览器对象为Phantomjs。
为了适应有登陆权限的网页,所述步骤二打开待抓取的URL后还包括:判断是否有登陆权限,如无则进行模拟登陆。
为了适应有访问权限的网页,所述步骤二打开待抓取的URL后还包括:判断是否有获取所述时间和评论信息文本的权限,如有权限则定位时间和评论信息文本并进行解析,否则退出本轮爬取流程。
为了更方便的对文档中的关键字进行提取,所述步骤二中还包括:将解析结果保存到excel文档中。
为了准确的获取关键字,所述步骤三中关键字提取采用如下方法:
a)将所述解析结果按规则存放在多个文档中,对所有文档进行分词,保存每个词的词频;
b)遍历所有文档得到单个词的逆向文件频率;
c)根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词。
为了更好的查看并处理文档信息,所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。
实施例
本实施例以爬取QQ空间的说说为例,使用的软件为PyCharm、Selenium和Phantomjs,使用pip安装好Selenium,在Selenium中导入BeautifulSoup模,使用Selenium的webdriver实例化一个Phantomjs对象,设置Phantomjs窗口最大,使用driver.get()打开待抓取的URL,等待预定时间后通过查找页面的DIV的ID来进行判断页面是否需登录,若存在登陆的DIV,则进行模拟登陆,判断好友空间是否设置了权限,通过判断是否存在元素ID:QM_OwnerInfo_Icon,判断后若有权限则定位评论信息文本及评论信息文本对应的时间后,对时间和评论信息文本进行解析,将解析结果存储到excel文档中,其中一个QQ账号对应一个excel文档,按照上述操作获取了对应的一定数量用户的存放时间和评论信息文本的excel文档后,再通过PyCharm中的pd.ExcelFile命令添加所有excel文档,对excel文档进行分词,保存每个词的词频,遍历所有excel文档得到单个词的逆向文件频率,根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词,如此即可提取用户评论最多的关键词有哪些,为产品的下一步改进提供准确的需求的同时,可得知哪些用户更青睐本网页对应的内容或产品,是本网页对应的内容或产品的目标人群。

Claims (8)

1.抓取社交媒体信息的爬虫分析方法,其特征在于,包括以下步骤:
步骤一、实例化一个浏览器对象;
步骤二、打开待抓取的URL,定位其中的评论信息文本及评论信息文本对应的时间,对所述评论信息文本及时间进行解析;
步骤三、根据解析结果进行关键字提取。
2.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤一之前还包括:导入BeautifulSoup模板。
3.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤一中的浏览器对象为Phantomjs。
4.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤二打开待抓取的URL后还包括:判断是否有登陆权限,如无则进行模拟登陆。
5.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤二打开待抓取的URL后还包括:判断是否有获取所述时间和评论信息文本的权限,如有权限则定位时间和评论信息文本并进行解析,否则退出本轮爬取流程。
6.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤二中还包括:将解析结果保存到excel文档中。
7.如权利要求1所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述步骤三中关键字提取采用如下方法:
a)将所述解析结果按规则存放在多个文档中,对所有文档进行分词,保存每个词的词频;
b)遍历所有文档得到单个词的逆向文件频率;
c)根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词。
8.如权利要求7所述的抓取社交媒体信息的爬虫分析方法,其特征在于,所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。
CN201810987325.1A 2018-08-28 2018-08-28 抓取社交媒体信息的爬虫分析方法 Pending CN109241387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810987325.1A CN109241387A (zh) 2018-08-28 2018-08-28 抓取社交媒体信息的爬虫分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810987325.1A CN109241387A (zh) 2018-08-28 2018-08-28 抓取社交媒体信息的爬虫分析方法

Publications (1)

Publication Number Publication Date
CN109241387A true CN109241387A (zh) 2019-01-18

Family

ID=65068524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810987325.1A Pending CN109241387A (zh) 2018-08-28 2018-08-28 抓取社交媒体信息的爬虫分析方法

Country Status (1)

Country Link
CN (1) CN109241387A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738024A (zh) * 2019-09-24 2020-01-31 深圳丝路天地电子商务有限公司 将WebAPP转换为API服务接口的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254152A1 (en) * 2011-03-03 2012-10-04 Brightedge Technologies, Inc. Optimization of social media engagement
CN103514213A (zh) * 2012-06-28 2014-01-15 华为技术有限公司 词语提取方法及装置
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254152A1 (en) * 2011-03-03 2012-10-04 Brightedge Technologies, Inc. Optimization of social media engagement
CN103514213A (zh) * 2012-06-28 2014-01-15 华为技术有限公司 词语提取方法及装置
CN108241611A (zh) * 2016-12-26 2018-07-03 北京国双科技有限公司 一种关键词提取方法以及提取设备
CN106709052A (zh) * 2017-01-06 2017-05-24 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738024A (zh) * 2019-09-24 2020-01-31 深圳丝路天地电子商务有限公司 将WebAPP转换为API服务接口的方法

Similar Documents

Publication Publication Date Title
CN109033115B (zh) 一种动态网页爬虫***
CN107480053B (zh) 一种软件测试数据生成方法及装置
CN102200971B (zh) 一种实现网页内容预览的方法和设备
CN107066576B (zh) 一种大数据网络爬虫分页选择方法和***
CN106990976A (zh) 一种网页脚本加载方法和装置
CN102831345A (zh) Sql注入漏洞检测中的注入点提取方法
CN102663319A (zh) 下载链接安全提示方法及装置
CN112749284A (zh) 知识图谱构建方法、装置、设备及存储介质
CN105224544A (zh) 一种数据库的数据编辑方法及装置
CN101562618A (zh) 一种检测网马的方法及装置
CN104077273A (zh) 一种对网页内容抽取的方法及装置
CN102870118A (zh) 用户行为的获取方法、设备及***
CN106570013A (zh) 页面访问数据的处理方法和装置
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN109241387A (zh) 抓取社交媒体信息的爬虫分析方法
CN104899203A (zh) 一种网页页面的生成方法、装置及终端设备
CN111125704B (zh) 一种网页挂马识别方法及***
CN110457603A (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
EP2711838A1 (en) Documentation parser
CN110188257A (zh) 一种移动应用数据采集方法及装置
CN104484451A (zh) 网页页面信息的提取方法和装置
CN107168627A (zh) 用于触摸屏的文本编辑方法和装置
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
CN106294433B (zh) 设备信息处理方法及装置
TWI680666B (zh) 網路使用者身份辨識方法與系統

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118