CN102096705A - 一种文章采集的方法 - Google Patents
一种文章采集的方法 Download PDFInfo
- Publication number
- CN102096705A CN102096705A CN 201010618421 CN201010618421A CN102096705A CN 102096705 A CN102096705 A CN 102096705A CN 201010618421 CN201010618421 CN 201010618421 CN 201010618421 A CN201010618421 A CN 201010618421A CN 102096705 A CN102096705 A CN 102096705A
- Authority
- CN
- China
- Prior art keywords
- article
- acquisition
- collection
- content
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种文章采集的方法,先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布;本发明根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录保存或用于内部使用或外网发布,能快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。
Description
技术领域
本发明涉及一种针对各式各样的网站文章进行自动采集的方法。
背景技术
文章采集是根据用户定义的关键词字,从各式各样的网站上检索出相关的数据,并对数据进行合理的截取、分类、去重和过滤,然后以文件或数据库的方式保存下来。
文章采集应用的关键在于如何从众多的网站获取所需要的准确内容到预期的中心资源库中,然后进行快速的利用。文章采集的核心技术是模式定义和模式匹配。模式属于人工智能的术语,是对前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。文章采集的模式大多不是程序自动发现的,目前几乎所有的文章采集产品都需要通过人工来定义。但模式本身是个很复杂、很抽象的内容,所以所有的开发者精力都花在怎样让模式定义更简单、更准确上,这也是文章采集技术竞争力的衡量标准。目前大多采用正则表达式定义和文档结构定义。
传统的文章采集存在几个方面的问题:1、采集的是整篇文章,需要手工进行页面处理才能被利用;2、不能分栏目采集;3、只支持单一站点的采集;4、采集的文章不能自动套用自己网站的格式进行发布,需要进行手工处理。
发明内容
本发明的目的在于提供一种文章采集的方法,支持网站群的多站点采集,可针对文章进行分段采集和分栏目采集,采集的文章能自动套用自己网站的格式进行发布,不需要进行手工处理。
一种文章采集的方法,具体包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。
所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。
本发明采用正则表达式定义的方式,根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取,对各类网站新闻的采集具有较快的速度和较高的准确率。本发明可在自动、手动两种模式下运行,自动由***定期到指定的站点更新最新的信息,手动提供了及时触发的机制;支持不同的信息采集使用不同的模式。
本发明对传统的文章采集技术进行改进,真正满足了用户的应用需求:1、可以针对文章进行分段采集,只获取所需要的内容;2、每个栏目都可以定制相应的采集任务,文章采集后自动存放在对应栏目下;3、采用多线程技术,支持网站群的多站点采集;4、结合模板引擎技术,文章采集后可以自动套用网站模板进行自动发布。
附图说明
图1为本发明的逻辑流程图。
图2为本发明实施例中采集内容的字符串位置示意图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
如图1所示,本发明一种文章采集的方法,具体包括如下:
先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定。
所述的采用正则表达式制定采集规则:指输入需要采集的静态页面地址,该路径指向待采集页面的某个栏目中的其中一篇文章,确定第N个“/”开始下的内容,自动转换成正则表达式规则,符合表达式规则的静态文件内容将被采集。
所述的关键信息处理方式:指确定需要采集内容的文章标题或者关键信息的字符串位置(如图2举例所示)。由于每个网站内容展示位置不一样,在配置采集时需先找到所要采集内容的字符串位置,才能准确地采集到数据。
所述的将采集的内容和目标站点的栏目进行绑定:就是用户在采集配置中,用户需选择所属栏目,或在创建栏目时,用户可选择指定的文章模板,开始采集时,通过栏目找到指定的文章模板,在发布时合并生成静态页面。
开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
所述的文章合并模板:指将动态的文章数据通过调用模板引擎生成静态的HTML页面。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (3)
1.一种文章采集的方法,其特征在于包括如下步骤:先选定采集来源,采用正则表达式制定采集规则,使用关键信息处理方式确定采集内容的范围,将采集的内容和目标站点的栏目进行绑定;开始采集文章时,先搜索采集来源,采用多线程技术,进行网站群的多站点采集;根据设定的采集规则,把采集到的内容存放在各自对应的栏目下;若需要自动发布,则调用文章合并模板进行发布。
2.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的采用正则表达式制定采集规则,是指输入需要采集的静态页面地址,确定地址中到第N个“/”为需要被采集的静态文件内容的地址,并将其自动转换成正则表达式规则。
3.根据权利要求1所述的一种文章采集的方法,其特征在于:所述的关键信息处理方式,指确定需要采集内容的文章标题或者关键信息的字符串位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010618421 CN102096705A (zh) | 2010-12-31 | 2010-12-31 | 一种文章采集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010618421 CN102096705A (zh) | 2010-12-31 | 2010-12-31 | 一种文章采集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102096705A true CN102096705A (zh) | 2011-06-15 |
Family
ID=44129800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010618421 Pending CN102096705A (zh) | 2010-12-31 | 2010-12-31 | 一种文章采集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102096705A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402592A (zh) * | 2011-11-04 | 2012-04-04 | 同辉佳视(北京)信息技术股份有限公司 | 一种基于网页数据挖掘的信息采集方法 |
CN102402627A (zh) * | 2011-12-31 | 2012-04-04 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN102609456A (zh) * | 2012-01-12 | 2012-07-25 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN104361061A (zh) * | 2014-11-03 | 2015-02-18 | 烽火通信科技股份有限公司 | 一种web页面信息感知采集方法 |
CN104850588A (zh) * | 2015-04-24 | 2015-08-19 | 深圳市梦网科技股份有限公司 | 媒体内容生成发布方法及*** |
CN104965904A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种多平台数据的抓取方法和装置 |
CN105335516A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件集团有限公司 | 一种通用采集***的构建方法 |
CN105718477A (zh) * | 2014-12-03 | 2016-06-29 | ***通信集团重庆有限公司 | 一种获取目标文件的方法及装置 |
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN107451218A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 网评自动发布方法及装置 |
CN108090105A (zh) * | 2016-11-22 | 2018-05-29 | 北京国双科技有限公司 | 栏目与文章页的匹配方法和装置 |
CN108270812A (zh) * | 2016-12-30 | 2018-07-10 | 深圳市青果乐园网络科技有限公司 | 用于获取文章发布和分享情况的方法和*** |
CN113254574A (zh) * | 2021-03-15 | 2021-08-13 | 河北地质大学 | 一种机关公文辅助生成方法、装置以及*** |
CN113590999A (zh) * | 2021-06-23 | 2021-11-02 | 小铁世纪(成都)科技有限公司 | 一种基于小程序的自适应内容识别及发布*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441629A (zh) * | 2007-11-19 | 2009-05-27 | 上海新纳广告传媒有限公司 | 一种非结构化网页信息的自动采集方法 |
-
2010
- 2010-12-31 CN CN 201010618421 patent/CN102096705A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441629A (zh) * | 2007-11-19 | 2009-05-27 | 上海新纳广告传媒有限公司 | 一种非结构化网页信息的自动采集方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402592A (zh) * | 2011-11-04 | 2012-04-04 | 同辉佳视(北京)信息技术股份有限公司 | 一种基于网页数据挖掘的信息采集方法 |
CN102402627A (zh) * | 2011-12-31 | 2012-04-04 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN102402627B (zh) * | 2011-12-31 | 2013-08-14 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN102609456A (zh) * | 2012-01-12 | 2012-07-25 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取***和方法 |
CN104361061B (zh) * | 2014-11-03 | 2018-02-16 | 南京烽火星空通信发展有限公司 | 一种web页面信息感知采集方法 |
CN104361061A (zh) * | 2014-11-03 | 2015-02-18 | 烽火通信科技股份有限公司 | 一种web页面信息感知采集方法 |
CN105718477B (zh) * | 2014-12-03 | 2019-05-24 | ***通信集团重庆有限公司 | 一种获取目标文件的方法及装置 |
CN105718477A (zh) * | 2014-12-03 | 2016-06-29 | ***通信集团重庆有限公司 | 一种获取目标文件的方法及装置 |
CN104850588A (zh) * | 2015-04-24 | 2015-08-19 | 深圳市梦网科技股份有限公司 | 媒体内容生成发布方法及*** |
CN104965904B (zh) * | 2015-06-30 | 2019-06-04 | 北京奇虎科技有限公司 | 一种多平台数据的抓取方法和装置 |
CN104965904A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种多平台数据的抓取方法和装置 |
CN105335516A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件集团有限公司 | 一种通用采集***的构建方法 |
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN108090105A (zh) * | 2016-11-22 | 2018-05-29 | 北京国双科技有限公司 | 栏目与文章页的匹配方法和装置 |
CN108270812A (zh) * | 2016-12-30 | 2018-07-10 | 深圳市青果乐园网络科技有限公司 | 用于获取文章发布和分享情况的方法和*** |
CN108270812B (zh) * | 2016-12-30 | 2021-03-23 | 深圳市青果乐园网络科技有限公司 | 用于获取文章发布和分享情况的方法和*** |
CN107451218A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 网评自动发布方法及装置 |
CN107451218B (zh) * | 2017-07-17 | 2020-04-03 | 云润大数据服务有限公司 | 网评自动发布方法及装置 |
CN113254574A (zh) * | 2021-03-15 | 2021-08-13 | 河北地质大学 | 一种机关公文辅助生成方法、装置以及*** |
CN113590999A (zh) * | 2021-06-23 | 2021-11-02 | 小铁世纪(成都)科技有限公司 | 一种基于小程序的自适应内容识别及发布*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102096705A (zh) | 一种文章采集的方法 | |
CN103309559B (zh) | 一种控制界面应用图标的方法及终端 | |
CN102164186B (zh) | 一种实现云搜索服务的方法及*** | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN105677918A (zh) | 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法 | |
CN102446225A (zh) | 一种实时搜索的方法、装置和*** | |
CN102402539A (zh) | 对象级个性化垂直搜索引擎设计技术 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN105045932A (zh) | 一种基于降序存储的数据分页查询方法 | |
CN101833587A (zh) | 网络视频搜索*** | |
CN102760151A (zh) | 开源软件获取与搜索***的实现方法 | |
CN105117501A (zh) | 网络爬虫调度方法及应用其的网络爬虫*** | |
CN102637172A (zh) | 网页分块标注方法与*** | |
CN103309960A (zh) | 一种网络舆情事件多维信息提取的方法及装置 | |
CN104021483A (zh) | 旅客需求推荐方法 | |
CN105550375A (zh) | 一种异构数据的整合方法及*** | |
CN102253939A (zh) | 一种基于云计算技术的搜索方法及*** | |
CN102811207A (zh) | 网络信息推送方法及*** | |
CN102073641A (zh) | 对消费者生成媒体信息进行处理的方法、装置和程序 | |
CN103198078B (zh) | 一种互联网新闻事件报道趋势分析方法及*** | |
CN104298669A (zh) | 一种基于社交网络的人员地理信息挖掘模型 | |
CN102508884A (zh) | 热点事件与实时评论的获取方法及装置 | |
CN106033428A (zh) | 统一资源定位符的选择方法和统一资源定位符的选择装置 | |
CN103605770A (zh) | 网页模板生成方法和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB02 | Change of applicant information |
Address after: 362000 Fujian city of Quanzhou province Quanxiu Street modern square modern furniture enterprise office building on the eighth floor Applicant after: Linewell Software Co., Ltd. Address before: The lake of Quanzhou city of Fujian Province, 362000 West Street No. 492 East Lake community building two floor Applicant before: Linewell Software Co., Ltd. |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110615 |