CN110764781A - 一种自动解析论坛网站数据的方法 - Google Patents

一种自动解析论坛网站数据的方法 Download PDF

Info

Publication number
CN110764781A
CN110764781A CN201911034106.2A CN201911034106A CN110764781A CN 110764781 A CN110764781 A CN 110764781A CN 201911034106 A CN201911034106 A CN 201911034106A CN 110764781 A CN110764781 A CN 110764781A
Authority
CN
China
Prior art keywords
forum
template
page
analysis plug
plug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911034106.2A
Other languages
English (en)
Other versions
CN110764781B (zh
Inventor
陈强
栾江霞
章正道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201911034106.2A priority Critical patent/CN110764781B/zh
Publication of CN110764781A publication Critical patent/CN110764781A/zh
Application granted granted Critical
Publication of CN110764781B publication Critical patent/CN110764781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;S2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。

Description

一种自动解析论坛网站数据的方法
技术领域
本发明涉及互联网信息数据采集技术领域,具体涉及一种自动解析论坛网站数据的方法。
背景技术
伴随着互联网的快速发展,社会公众和企业单位对互联网数据的依赖越来越强,互联网是提供信息的重要渠道,互联网上的信息数以亿计,由于硬件资源、网络资源的限制,人们很难快速准确的来获取自己关注的热点信息。
互联网上的论坛网站类型复杂,例如facebook、twitter等,除论坛网页信息外还会存在大量的的其它内容网页,这在一定程度上加大了用户搜索热点信息的难度。
目前存在的一些论坛采集工具,只可以在用户指定的论坛网站中进行搜索采集,有一定的局限性,而且通常也会对大量非论坛网页进行判断,从而大大降低了论坛数据采集的效率。
发明内容
本发明旨在提供一种自动解析论坛网站数据,以解决目前论坛数据采集效率低下的问题。为此,本发明采用的具体技术方案如下:
根据本发明实施例,提供了一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:
S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;
S2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;
S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。
进一步地,S1的具体过程为:
S11:通过人工从互联网中收集大量论坛网站;
S12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;
S13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。
进一步地,论坛格式可包括Discuz、phpwind、byr、dvbbs、LeadBBS、bbsxp、BbsMax和YxBBs等。
进一步地,S2的具体过程为:
S21:获取待解析论坛网站的网页源码,根据网站链接URL判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入S3;否则进入S22;
S22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表中,进入S23;
S23:扫描列表,判断是否已扫描到最后一个,若是,则进入S28,否则进入S24;
S24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接URL个数是否大于0,若是,则进入S25;否则返回S23,扫描下一个论坛解析插件模板;
S25:随机选取S24提取的一个版块页链接URL,根据论坛插件解析模板的主题页正则匹配规则对版块页进行主题页的提取,判断该版块页提取的主题页链接URL个数是否大于0,若是,则进入S26;否则返回S23,扫描下一个论坛解析插件模板;
S26:随机选取S25提取的一个主题页链接URL,根据论坛插件解析模板的回复页正则匹配规则对主题页进行回复页的提取,判断该主题页提取的回复页链接URL个数是否大于0,若是,则进入S27;否则返回S23,扫描下一个论坛解析插件模板;
S27:指定该论坛插件解析模板为该论坛网站的论坛解析插件模板,并记录关联关系,以后该论坛网站都将默认用该论坛解析插件模块进行解析。
S28:对该论坛网站进行分析,形成一个新的论坛解析插件模板,并更新于论坛解析插件模板中心库中。
进一步地,步骤S3的具体过程为:
S31:获取论坛网页,下载论坛网页源码,将所述论坛网页源码放入待采集队列;
S32:从待采集队列获取起始采集网页链接URL,根据指定的论坛解析插件模板中的版块页正则匹配规则,对起始采集网页提取版块页链接URL,存放在第一队列中;
S33:从第一队列中逐个取出版块页链接URL,根据指定的论坛解析插件模板中的主题页正则匹配规则,对版块页网页提取主题页链接URL,存放在第二队列中;
S34:从第二队列中逐个取出主题页链接URL,根据指定的论坛解析插件模板中配置好的主题页提取相关规则和回复页正则匹配规则,对主题页网页提取出主题页的标题、作者、发布时间、最后回复人、最后回复时间及回复页链接URL,存放在第三队列中;
S35:从第三队列中逐个取出回复页链接URL,根据指定的论坛解析插件模板中配置好的回复页提取相关规则,对回复页网页提取出回复人、回复内容和回复时间,生成结构化数据,记录主题页和回复页的结构化数据,并挖掘关联关系。
本发明采用上述技术方案,具有的有益效果是:本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。
附图说明
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
图1是根据本发明实施例的一种自动解析论坛网站数据的方法的总体流程图;
图2是图1所示的方法的步骤S2的详细流程图;
图3是图1所示的方法的步骤S3的详细流程图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
如图1至3所示,根据本发明实施例的一种自动解析论坛网站数据的方法可包括以下步骤:
S1:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中。具体地,S1包括以下过程:
S11:通过人工从互联网中收集大量论坛网站,即,在互联网尽可能多的收集不同格式的论坛网站;
S12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;其中,论坛格式可包括Discuz、phpwind、byr、dvbbs、LeadBBS、bbsxp、BbsMax和YxBBs等;
S13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。
S2:获取待解析论坛网站的网页源码,根据网页源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板。具体地,S2可包括以下过程:
S21:获取待解析论坛网站的网页源码,根据网站链接URL判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入S3;否则进入S22;
S22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表LIST中,进入S23;
S23:扫描列表LIST,判断是否已扫描到最后一个,若是,则进入S28,否则进入S24;
S24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接URL个数是否大于0,若是,则进入S25;否则返回S23,扫描下一个论坛解析插件模板;
S25:随机选取S24提取的一个版块页链接URL,根据论坛插件解析模板的主题页正则匹配规则对版块页进行主题页的提取,判断该版块页提取的主题页链接URL个数是否大于0,若是,则进入S26;否则返回S23,扫描下一个论坛解析插件模板;
S26:随机选取S25提取的一个主题页链接URL,根据论坛插件解析模板的回复页正则匹配规则对主题页进行回复页的提取,判断该主题页提取的回复页链接URL个数是否大于0,若是,则进入S27;否则返回S23,扫描下一个论坛解析插件模板。
S27:指定该论坛插件解析模板为该论坛网站的论坛解析插件模板,并记录关联关系,以后该论坛网站都将默认用该论坛解析插件模块进行解析。
S28:对该论坛网站进行分析,形成一个新的论坛解析插件模板,并更新于论坛解析插件模板中心库中。
通过上述筛选流程,可以找到论坛适应的论坛解析插件模板,针对现有的采集器,可以直接将论坛网站作为采集起始页进行采集提取,而筛选出来的论坛解析插件模板,根据论坛解析插件模板中配置好的版块页规则、主题页规则、回复页规则可以直接有效的对论坛网站实行自动采集流程,利用现有的自动提取机制,可以快速、准确的提取到论坛的具体内容,如标题、发布时间、发布内容、发布作者等。每一个论坛网站根据此流程筛选出对应的论坛解析插件模板,可以大大提升论坛数据采集的效率。
S3:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。具体地,S3包括以下过程:
S31:获取论坛网页,下载论坛网页源码,将所述论坛网页源码放入待采集队列;
S32:从待采集队列获取起始采集网页链接URL,根据指定的论坛解析插件模板中的版块页正则匹配规则,对起始采集网页提取版块页链接URL,存放在第一队列中;
S33:从第一队列中逐个取出版块页链接URL,根据指定的论坛解析插件模板的主题页正则匹配规则,对版块页网页提取主题页链接URL,存放在第二队列中;
S34:从第二队列中逐个取出主题页链接URL,根据指定的论坛解析插件模板中配置好的主题页提取相关规则和回复页正则匹配规则,对主题页网页提取出主题页的标题、作者、发布时间、最后回复人、最后回复时间及回复页链接URL,存放在第三队列中;
S35:从第三队列中逐个取出回复页链接URL,根据指定的论坛解析插件模板中配置好的回复页提取相关规则,对回复页网页提取出回复人、回复内容和回复时间,生成结构化数据,记录主题页和回复页的结构化数据,并挖掘关联关系。
本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (5)

1.一种自动解析论坛网站数据的方法,其特征在于,所述方法包括以下步骤:
S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;
S2、筛选论坛解析插件模板:获取待解析论坛网站的网页源码,根据网页源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;
S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。
2.如权利要求1所述的自动解析论坛网站数据的方法,其特征在于,S1的具体过程为:
S11:通过人工从互联网中收集大量论坛网站;
S12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;
S13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。
3.如权利要求2所述的自动解析论坛网站数据的方法,其特征在于,论坛格式包括Discuz、phpwind、byr、dvbbs、LeadBBS、bbsxp、BbsMax和YxBBs。
4.如权利要求2所述的自动解析论坛网站数据的方法,其特征在于,S2的具体过程为:
S21:获取待解析论坛网站的网页源码,根据网站链接URL判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入S3;否则进入S22;
S22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表中,进入S23;
S23:扫描列表,判断是否已扫描到最后一个,若是,则进入S28,否则进入S24;
S24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接URL个数是否大于0,若是,则进入S25;否则返回S23,扫描下一个论坛解析插件模板;
S25:随机选取S24提取的一个版块页链接URL,根据论坛插件解析模板的主题页正则匹配规则对版块页进行主题页的提取,判断该版块页提取的主题页链接URL个数是否大于0,若是,则进入S26;否则返回S23,扫描下一个论坛解析插件模板;
S26:随机选取S25提取的一个主题页链接URL,根据论坛插件解析模板的回复页正则匹配规则对主题页进行回复页的提取,判断该主题页提取的回复页链接URL个数是否大于0,若是,则进入S27;否则返回S23,扫描下一个论坛解析插件模板;
S27:指定该论坛插件解析模板为该论坛网站的论坛解析插件模板,并记录关联关系,以后该论坛网站都将默认用该论坛解析插件模块进行解析。
S28:对该论坛网站进行分析,形成一个新的论坛解析插件模板,并更新于论坛解析插件模板中心库中。
5.如权利要求4所述的自动解析论坛网站数据的方法,其特征在于,S3的具体过程为:
S31:获取论坛网页,下载论坛网页源码,将所述论坛网页源码放入待采集队列;
S32:从待采集队列获取起始采集网页链接URL,根据指定的论坛解析插件模板中的版块页正则匹配规则,对起始采集网页提取版块页链接URL,存放在第一队列中;
S33:从第一队列中逐个取出版块页链接URL,根据指定的论坛解析插件模板中的主题页正则匹配规则,对版块页网页提取主题页链接URL,存放在第二队列中;
S34:从第二队列中逐个取出主题页链接URL,根据指定的论坛解析插件模板中配置好的主题页提取相关规则和回复页正则匹配规则,对主题页网页提取出主题页的标题、作者、发布时间、最后回复人、最后回复时间及回复页链接URL,存放在第三队列中;
S35:从第三队列中逐个取出回复页链接URL,根据指定的论坛解析插件模板中配置好的回复页提取相关规则,对回复页网页提取出回复人、回复内容和回复时间,生成结构化数据,记录主题页和回复页的结构化数据,并挖掘关联关系。
CN201911034106.2A 2019-10-29 2019-10-29 一种自动解析论坛网站数据的方法 Active CN110764781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911034106.2A CN110764781B (zh) 2019-10-29 2019-10-29 一种自动解析论坛网站数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911034106.2A CN110764781B (zh) 2019-10-29 2019-10-29 一种自动解析论坛网站数据的方法

Publications (2)

Publication Number Publication Date
CN110764781A true CN110764781A (zh) 2020-02-07
CN110764781B CN110764781B (zh) 2022-06-14

Family

ID=69334202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911034106.2A Active CN110764781B (zh) 2019-10-29 2019-10-29 一种自动解析论坛网站数据的方法

Country Status (1)

Country Link
CN (1) CN110764781B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692050A (zh) * 2022-03-30 2022-07-01 北京金堤科技有限公司 页面解析方法、装置、计算机可读介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其***
US8793273B1 (en) * 2011-06-29 2014-07-29 Google Inc. Parsing framework method and device
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651002A (zh) * 2011-02-28 2012-08-29 腾讯科技(深圳)有限公司 一种网页信息抽取方法及其***
US8793273B1 (en) * 2011-06-29 2014-07-29 Google Inc. Parsing framework method and device
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔峰: "基于模板化网络爬虫技术的Web网页信息抽取", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692050A (zh) * 2022-03-30 2022-07-01 北京金堤科技有限公司 页面解析方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN110764781B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及***
CN101419614A (zh) 视频资源聚类方法和装置
JP4856238B2 (ja) ユーザ別適応推薦語を提供するシステム、方法およびこの方法を実行するためのプログラムが記録されたコンピュータで読み取り可能な記録媒体
EP2447864A1 (en) Update notification method and system
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
CN102306201B (zh) 一种网页标题分析的方法和***
CN102609412A (zh) 基于rss的多线程图文信息同步爬取的控制方法及***
CN102750352A (zh) 浏览器中分类收藏历史访问记录的方法及装置
CN112445997A (zh) 一种提取cms多版本识别特征规则的方法及装置
CN103020188A (zh) 多平台应用搜索方法和服务器
CN104021174A (zh) 根据片段图像获取完整资源的方法、***与应用
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
US20110270691A1 (en) Method and system for providing url possible new advertising
CN110764781B (zh) 一种自动解析论坛网站数据的方法
CN101630315A (zh) 一种快速检索方法及***
US11657078B2 (en) Automatic identification of document sections to generate a searchable data structure
CN103248513A (zh) 基于Office办公套件的网络信息数据采集方法及***
CN113806647A (zh) 识别开发框架的方法及相关设备
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
Gali et al. Extracting representative image from web page
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
KR101134073B1 (ko) 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
CN105095404A (zh) 网页信息的处理方法、网页信息的推荐方法及装置
CN102087653A (zh) 一种发布网站信息的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant