CN109241387A

CN109241387A - 抓取社交媒体信息的爬虫分析方法

Info

Publication number: CN109241387A
Application number: CN201810987325.1A
Authority: CN
Inventors: 余锡娟
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-01-18

Abstract

本发明涉及爬虫爬取信息领域，针对现有爬虫技术数据量大而杂分析准确度不高的问题，提出了一种提出一种抓取社交媒体信息的爬虫分析方法，包括以下步骤：步骤一、实例化一个浏览器对象；步骤二、打开待抓取的URL，定位其中的评论信息文本及评论信息文本对应的时间，对所述评论信息文本及时间进行解析；步骤三、根据解析结果进行关键字提取。本发明通过爬取时间和评论信息文本可快速准确的获取最有商业价值的内容，根据爬取的内容进行关键字的提取可准确的得到用户对产品的评价，以便为产品的下一步改进提供准确的需求，适用于社交媒体信息的爬取。

Description

抓取社交媒体信息的爬虫分析方法

技术领域

本发明涉及爬虫爬取信息领域，特别涉及一种抓取社交媒体信息的爬虫分析方法。

背景技术

现在的社会是一个高速发展的社会，科技发达信息流通，大数据是高科技时代的产物。在人工智能引领时代发展的阶段，各行各业都需要在有效的数据内提取分析用户需求，以便更好地进行产品的下一步推广。因此如何在已有的数据基础上将数据资料进行获取和分析，就需要网络爬虫来实现，而社交媒体里含有大量的用户需求，通过网络爬虫获取数据并归纳总结，具有较高的商业价值。

现有的网络爬虫爬取的是全网页面信息作为文本分析，信息冗杂数据量大而杂，可利用性不高进而获取用户需求的准确度并不高。

发明内容

本发明所要解决的技术问题是：克服现有爬虫技术数据量大而杂分析准确度不高的问题，提出一种抓取社交媒体信息的爬虫分析方法。

本发明解决上述技术问题，采用的技术方案是：

抓取社交媒体信息的爬虫分析方法，包括以下步骤：

步骤一、实例化一个浏览器对象；

步骤二、打开待抓取的URL(统一资源定位符)，定位其中的评论信息文本及评论信息文本对应的时间，对所述评论信息文本及时间进行解析；

步骤三、根据解析结果进行关键字提取。

进一步的，所述步骤一之前还包括：导入BeautifulSoup模板。

优选的，所述步骤一中的浏览器对象为Phantomjs。

进一步的，所述步骤二打开待抓取的URL后还包括：判断是否有登陆权限，如无则进行模拟登陆。

进一步的所述步骤二打开待抓取的URL后还包括：判断是否有获取所述时间和评论信息文本的权限，如有权限则定位时间和评论信息文本并进行解析，否则退出本轮爬取流程。

进一步的，所述步骤二中还包括：将解析结果保存到excel文档中。

优选的，所述步骤三中关键字提取采用如下方法：

a)将所述解析结果按规则存放在多个文档中，对所有文档进行分词，保存每个词的词频；

b)遍历所有文档得到单个词的逆向文件频率；

c)根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词。

优选的，所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。

本发明的有益效果是：通过爬取时间和评论信息文本可快速准确的获取最有商业价值的内容，根据爬取的内容进行关键字的提取可准确的得到用户对产品的评价，以便为产品的下一步改进提供准确的需求。

附图说明

图1为本发明实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步详细说明。

如图1所示，抓取社交媒体信息的爬虫分析方法，包括以下步骤：

步骤一、实例化一个浏览器对象；

步骤二、打开待抓取的URL，定位其中的评论信息文本及评论信息文本对应的时间，对所述评论信息文本及时间进行解析；其中，定位评论信息文本对应的时间，可以针对不同的时间段进行后续关键字的提取，使得数据分析更加可靠。

步骤三、根据解析结果进行关键字提取。

为了更方便的实现网页信息的抓取并获取内容，所述步骤一之前还包括：导入BeautifulSoup模板，该BeautifulSoup模板为一个用于提取网页数据的Python库。

为了更方便在页面植入脚本，所述步骤一中的浏览器对象为Phantomjs。

为了适应有登陆权限的网页，所述步骤二打开待抓取的URL后还包括：判断是否有登陆权限，如无则进行模拟登陆。

为了适应有访问权限的网页，所述步骤二打开待抓取的URL后还包括：判断是否有获取所述时间和评论信息文本的权限，如有权限则定位时间和评论信息文本并进行解析，否则退出本轮爬取流程。

为了更方便的对文档中的关键字进行提取，所述步骤二中还包括：将解析结果保存到excel文档中。

为了准确的获取关键字，所述步骤三中关键字提取采用如下方法：

b)遍历所有文档得到单个词的逆向文件频率；

为了更好的查看并处理文档信息，所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。

实施例

本实施例以爬取QQ空间的说说为例，使用的软件为PyCharm、Selenium和Phantomjs，使用pip安装好Selenium，在Selenium中导入BeautifulSoup模，使用Selenium的webdriver实例化一个Phantomjs对象，设置Phantomjs窗口最大，使用driver.get()打开待抓取的URL，等待预定时间后通过查找页面的DIV的ID来进行判断页面是否需登录，若存在登陆的DIV，则进行模拟登陆，判断好友空间是否设置了权限，通过判断是否存在元素ID：QM_OwnerInfo_Icon，判断后若有权限则定位评论信息文本及评论信息文本对应的时间后，对时间和评论信息文本进行解析，将解析结果存储到excel文档中，其中一个QQ账号对应一个excel文档，按照上述操作获取了对应的一定数量用户的存放时间和评论信息文本的excel文档后，再通过PyCharm中的pd.ExcelFile命令添加所有excel文档，对excel文档进行分词，保存每个词的词频，遍历所有excel文档得到单个词的逆向文件频率，根据逆向文件频率乘以词频选取排名靠前的词作为提取的关键词，如此即可提取用户评论最多的关键词有哪些，为产品的下一步改进提供准确的需求的同时，可得知哪些用户更青睐本网页对应的内容或产品，是本网页对应的内容或产品的目标人群。

Claims

1.抓取社交媒体信息的爬虫分析方法，其特征在于，包括以下步骤：

步骤一、实例化一个浏览器对象；

步骤二、打开待抓取的URL，定位其中的评论信息文本及评论信息文本对应的时间，对所述评论信息文本及时间进行解析；

步骤三、根据解析结果进行关键字提取。

2.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤一之前还包括：导入BeautifulSoup模板。

3.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤一中的浏览器对象为Phantomjs。

4.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤二打开待抓取的URL后还包括：判断是否有登陆权限，如无则进行模拟登陆。

5.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤二打开待抓取的URL后还包括：判断是否有获取所述时间和评论信息文本的权限，如有权限则定位时间和评论信息文本并进行解析，否则退出本轮爬取流程。

6.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤二中还包括：将解析结果保存到excel文档中。

7.如权利要求1所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述步骤三中关键字提取采用如下方法：

b)遍历所有文档得到单个词的逆向文件频率；

8.如权利要求7所述的抓取社交媒体信息的爬虫分析方法，其特征在于，所述规则为将一个社交媒体账号对应的解析结果保存在一个所述文档中。