CN108763279A - 一种网页数据分布式模板采集方法及*** - Google Patents

一种网页数据分布式模板采集方法及*** Download PDF

Info

Publication number
CN108763279A
CN108763279A CN201810319851.0A CN201810319851A CN108763279A CN 108763279 A CN108763279 A CN 108763279A CN 201810319851 A CN201810319851 A CN 201810319851A CN 108763279 A CN108763279 A CN 108763279A
Authority
CN
China
Prior art keywords
data
template
webpage
acquisition
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810319851.0A
Other languages
English (en)
Other versions
CN108763279B (zh
Inventor
方省
王海亮
皇秋曼
王磊
罗引
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Song Polytron Technologies Inc
Original Assignee
Beijing Zhongke Song Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Song Polytron Technologies Inc filed Critical Beijing Zhongke Song Polytron Technologies Inc
Priority to CN201810319851.0A priority Critical patent/CN108763279B/zh
Publication of CN108763279A publication Critical patent/CN108763279A/zh
Application granted granted Critical
Publication of CN108763279B publication Critical patent/CN108763279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网页数据分布式模板采集方法及***,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

Description

一种网页数据分布式模板采集方法及***
技术领域
本发明涉及数据采集技术领域,尤其涉及一种网页数据分布式模板采集方法及***。
背景技术
随着物联网的快速发展和大数据的兴起,人们对数据的需求越来越多,不仅要求数据量多,对数据质量的要求也提高。数据质量的好坏直接决定了通过大数据分析后得到的结论的优劣,好的数据将大大提升分析结果的准确性。在这样的环境下,数据采集的技术尤为重要。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种网页数据分布式模板采集方法,包括:
针对不同类型的网页配置不同的数据采集模板,并将所述数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;
根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中;
将所述模板池中的数据采集模板分发到至少两个采集客户端,所述采集客户端分别根据所述数据采集模板对所述网页进行数据抽取,得到所述网页的网页数据。
基于上述技术方案,本发明实施例还可以做出如下改进。
可选的,所述数据采集模板包括:站点层模板、频道层模板和正文层模板;
所述站点层模板包括:站点名、站点地址、编码格式、国家、语言和频道列表;
所述频道层模板包括:频道名、频道地址、编码格式、分类属性、是否需要代理访问和页面标识;
所述正文层模板包括:标题解析、正文解析、发布时间解析、作者解析、来源解析和图片解析。
可选的,针对不同类型的网页配置不同的数据采集模板,并将所述数据采集模板按所述网页的类型分别导入不同的数据表中进行存储,具体包括:
S11、根据网页的类型配置站点层模板,得到站点模板,判断所述网页是否存在频道地址;是则,执行S12,否则,所述站点模板为所述网页的所述数据采集模板,执行S14;
S12、基于所述站点模板配置频道层模板,得到频道模板,判断所述网页的频道地址是否存在正文,是则,执行S13,否则,所述频道模板为所述数据采集模板,执行S14;
S13、基于所述频道模板配置正文层模板,得到所述数据采集模板;
S14、根据数据采集模板的不同按所述网页的类型分别导入不同的数据表中进行存储,并设置与所述数据表相对应的服务接口。
可选的,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中,具体包括:
S21、采集服务器调用所述服务接口,根据被采集的网页类型从所述数据表中获取相应的数据采集模板;
S22、所述采集服务器将获取到的数据采集模板放入模板池中,并实时监控模板池中的所述数据采集模板的数量;
S23、当所述模板池中的所述数据采集模板的数量小于预设值时,执行S21;当所述模板池中的所述数据采集模板的数量大于或等于预设值时,将所述模板池中的数据采集模板分发到至少两个采集客户端。
可选的,所述将所述模板池中的数据采集模板分发到至少两个采集客户端,具体包括:
当采集客户端调用所述服务接口时,所述采集服务器将所述模板池中的数据采集模板分发到所述采集客户端,并将所述数据采集模板分发到至少一个其他的所述采集客户端。
可选的,所述采集客户端分别根据所述数据采集模板对所述网页进行数据抽取,得到所述网页的网页数据,具体包括:
所述采集客户端根据所述数据采集模板提取所述网页的站点地址,并根据所述站点地址进行网页下载;
通过所述数据采集模板,基于XPATH技术对所述网页进行数据抽取,得到所述网页的网页数据。
可选的,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表中的全部所述数据采集模板。
可选的,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表,根据预设模板ID从所述数据表中获取与所述模板ID相应的数据采集模板。
可选的,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表,根据预设模板ID从所述数据表中获取大于所述模板ID数值个数据采集模板。
本发明实施例还提供了一种网页数据分布式模板采集***,包括:模板配置子***、采集服务器子***和采集客户端子***;用于实现上述任一所述的网页数据分布式模板采集方法。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。
附图说明
图1是本发明实施例提供的一种网页数据分布式模板采集方法流程示意图;
图2是本发明另一实施例提供的一种网页数据分布式模板采集方法流程示意图;
图3是本发明又一实施例提供的一种网页数据分布式模板采集方法流程示意图;
图4是本发明又一实施例提供的一种网页数据分布式模板采集***结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种网页数据分布式模板采集方法,包括:
针对不同类型的网页配置不同的数据采集模板,并将数据采集模板按网页的类型分别导入不同的数据表中进行存储;
具体的,在本实施例中,不同的网页的具有不同的排列样式、数据分布情况和页面跳转类型,而且大部分网页均采用链接点击跳转到另一级页面中进行浏览,根据具体情况的不同,还有可能出现多级跳转的情况,在本发明实施例中,针对不同类型的网页均配置相应的数据采集模板,相同类型的网页也会出现网页布局不一致的情况,所以相同类型的网页的数据采集模板可能也不相同,此时将数据采集模板按网页的类型分别导入不同的数据表中进行存储,方便后续使用时,模板的获取效率。
根据被采集的网页的类型从数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中;
具体的,在本实施例中,根据被采集的网页的类型选取相对应的数据表,从该数据表中获取相应的数据采集模板,以此加快数据采集模板的获取效率,将获取到的数据采集模板放入模板池中进行暂存;其中,获取相应的数据采集模板的方式包括:
获取与网页的类型相对应的数据表中的全部数据采集模板;或者,获取与网页的类型相对应的数据表,根据预设模板ID从数据表中获取与模板ID相应的数据采集模板;或者,获取与网页的类型相对应的数据表,根据预设模板ID从数据表中获取大于模板ID数值个数据采集模板。
将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据;
具体的,将模板池中的数据采集模板分发到多个采集客户端中,通过采集客户端分别对网页进行数据抽取,分别得到网页的部分或完整网页数据,最后针对每个采集客户端得到的数据进行整合,得到完善的网页数据,避免出现网页数据获取失败无法获取到该位置的网页数据的情况,保证获得的网页数据的完整性。
上述实施例中,针对不同类型的网页构建不同的数据采集模板,并按网页的类型分别存储进不同的数据表中,方便数据采集时使用时提取相应的数据采集模板,在采集网页上的数据时,根据网页的类型,获取数据采集模板,并存入模板池中,通过将模板池中的数据采集模板分发到多个采集客户端,分别对网页上的网页数据进行提取,并最终整合合并得到该网页的网页数据,由此提高了网页数据的准确性和完整性。
在本实施例中,数据采集模板包括:站点层模板、频道层模板和正文层模板;
站点层模板包括:站点名、站点地址、编码格式、国家、语言和频道列表;
频道层模板包括:频道名、频道地址、编码格式、分类属性、是否需要代理访问和页面标识;
正文层模板包括:标题解析、正文解析、发布时间解析、作者解析、来源解析和图片解析;
具体的,在本实施例中,数据采集模板分为三层,最上层为站点层,通过站点地址即可访问,其中存储有频道列表,通过频道列表可访问对应的频道,点击其中的频道地址即可访问对应的正文获取最底层数据,在实际的工作中,网页的层级可根据具体设置进行增加,并按层级进行跳转,其他情况在此不再赘述,数据采集模板可根据实际情况进行具体设置。
如图2所示,在一个具体的实施例中,一种网页数据分布式模板采集方法具体包括:
S11、根据网页的类型配置站点层模板,得到站点模板,判断网页是否存在频道地址;是则,执行S12,否则,站点模板为网页的数据采集模板,执行S14;
S12、基于站点模板配置频道层模板,得到频道模板,判断网页的频道地址是否存在正文,是则,执行S13,否则,频道模板为数据采集模板,执行S14;
S13、基于频道模板配置正文层模板,得到数据采集模板;
S14、根据数据采集模板的不同按网页的类型分别导入不同的数据表中进行存储,并设置与数据表相对应的服务接口;
具体的,在构建数据采集模板时,判断其层级数量,当存在频道地址时,配置频道模板,其中配置的频道模板可以更具频道的层次数量,如是否出现多层级频道,进行频道层模板的配置,判断频道地址之下的是否存在正文,如存在正文,根据正文的布局配置正文层模板,实现数据采集模板的构建。
如图3所示,在本实施例中,网页数据分布式模板采集方法还包括:
S21、采集服务器调用服务接口,根据被采集的网页类型从数据表中获取相应的数据采集模板;
S22、采集服务器将获取到的数据采集模板放入模板池中,并实时监控模板池中的数据采集模板的数量;
S23、当模板池中的数据采集模板的数量小于预设值时,执行S21;当模板池中的数据采集模板的数量不小于预设值时,将模板池中的数据采集模板分发到至少两个采集客户端。
将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据;
具体的,将模板池中的数据采集模板分发到多个采集客户端中,通过采集客户端分别对网页进行数据抽取,分别得到网页的部分或完整网页数据,最后针对每个采集客户端得到的数据进行整合,得到完善的网页数据,避免出现网页数据获取失败无法获取到该位置的网页数据的情况,保证获得的网页数据的完整性,其中,分发到至少两个采集客户端流程具体包括:当采集客户端调用服务接口时,采集服务器将模板池中的数据采集模板分发到采集客户端,并将数据采集模板分发到至少一个其他的采集客户端;由当某一个采集客户端开始调用服务接口进行数据采集时,将数据采集模板分到至少一个其他的采集客户端中,由此通过不同采集客户端对网页数据分别进行采集,提高数据的准确性。
具体的,在本实施例中,网页数据的采集过程,具体以下步骤:
采集客户端根据数据采集模板提取网页的站点地址,并根据站点地址进行网页下载;
通过数据采集模板,基于XPATH技术对网页进行数据抽取,整合得到网页的网页数据。
如图4所示,本发明实施例还提供了一种网页数据分布式模板采集***,包括:模板配置子***、采集服务器子***和采集客户端子***;采集客户端子***包括:至少两个采集客户端;
模板配置子***,用于针对不同的网页的类型配置不同的数据采集模板,并将数据采集模板分别导入不同的数据表中进行存储;
采集服务器子***,用于根据被采集的网页的类型从数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中;
采集服务器子***,还用于将模板池中的数据采集模板分发到至少两个采集客户端,
采集客户端,用于分别根据数据采集模板对网页进行数据抽取,得到网页的网页数据。
在本实施例中,模板配置子***,具体用于根据网页的类型配置站点层模板,得到站点模板,判断网页是否存在频道地址;是则,执行S12,否则,站点模板为网页的数据采集模板,执行S14;
S12、基于站点模板配置频道层模板,得到频道模板,判断网页的频道地址是否存在正文,是则,执行S13,否则,频道模板为数据采集模板,执行S14;
S13、基于频道模板配置正文层模板,得到数据采集模板;
S14、根据数据采集采集模板的不同分别导入不同的数据表中进行存储,并设置与数据表相对应的服务接口。
在本实施例中,采集服务器子***,具体用于调用服务接口,根据被采集的网页类型从数据表中获取相应的数据采集模板;采集服务器将获取到的数据采集模板放入模板池中,并实时监控模板池中的数据采集模板的数量;当模板池中的数据采集模板的数量小于预设值时,根据被采集的网页类型从数据表中获取相应的数据采集模板;当模板池中的数据采集模板的数量大于或等于预设值时,将模板池中的数据采集模板分发到至少两个采集客户端。
在本实施例中,采集服务器子***,具体用于当采集客户端调用服务接口时,采集服务器将模板池中的数据采集模板分发到采集客户端,并将数据采集模板分发到至少一个其他的采集客户端。
在本实施例中,采集客户端,具体用于根据数据采集模板提取网页的站点地址,并根据站点地址进行网页下载;通过数据采集模板,基于XPATH技术对网页进行数据抽取,得到网页的网页数据。
在本实施例中,采集服务器子***,具体用于获取与网页的类型相对应的数据表中的全部数据采集模板。
在本实施例中,采集服务器子***,具体用于获取与网页的类型相对应的数据表,根据预设模板ID从数据表中获取与模板ID相应的数据采集模板。
在本实施例中,采集服务器子***,具体用于获取与网页的类型相对应的数据表,根据预设模板ID从数据表中获取大于模板ID数值个数据采集模板。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网页数据分布式模板采集方法,其特征在于,包括:
针对不同类型的网页配置不同的数据采集模板,并将所述数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;
根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中;
将所述模板池中的数据采集模板分发到至少两个采集客户端,所述采集客户端分别根据所述数据采集模板对所述网页进行数据抽取,得到所述网页的网页数据。
2.根据权利要求1所述的网页数据分布式模板采集方法,其特征在于,所述数据采集模板包括:站点层模板、频道层模板和正文层模板;
所述站点层模板包括:站点名、站点地址、编码格式、国家、语言和频道列表;
所述频道层模板包括:频道名、频道地址、编码格式、分类属性、是否需要代理访问和页面标识;
所述正文层模板包括:标题解析、正文解析、发布时间解析、作者解析、来源解析和图片解析。
3.根据权利要求2所述的网页数据分布式模板采集方法,其特征在于,针对不同类型的网页配置不同的数据采集模板,并将所述数据采集模板按所述网页的类型分别导入不同的数据表中进行存储,具体包括:
S11、根据网页的类型配置站点层模板,得到站点模板,判断所述网页是否存在频道地址;是则,执行S12,否则,所述站点模板为所述网页的所述数据采集模板,执行S14;
S12、基于所述站点模板配置频道层模板,得到频道模板,判断所述网页的频道地址是否存在正文,是则,执行S13,否则,所述频道模板为所述数据采集模板,执行S14;
S13、基于所述频道模板配置正文层模板,得到所述数据采集模板;
S14、根据数据采集模板的不同按所述网页的类型分别导入不同的数据表中进行存储,并设置与所述数据表相对应的服务接口。
4.根据权利要求3所述的网页数据分布式模板采集方法,其特征在于,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,并将获取到的数据采集模板放入模板池中,具体包括:
S21、采集服务器调用所述服务接口,根据被采集的网页类型从所述数据表中获取相应的数据采集模板;
S22、所述采集服务器将获取到的数据采集模板放入模板池中,并实时监控模板池中的所述数据采集模板的数量;
S23、当所述模板池中的所述数据采集模板的数量小于预设值时,执行S21;当所述模板池中的所述数据采集模板的数量大于或等于预设值时,将所述模板池中的数据采集模板分发到至少两个采集客户端。
5.根据权利要求4所述的网页数据分布式模板采集方法,其特征在于,所述将所述模板池中的数据采集模板分发到至少两个采集客户端,具体包括:
当采集客户端调用所述服务接口时,所述采集服务器将所述模板池中的数据采集模板分发到所述采集客户端,并将所述数据采集模板分发到至少一个其他的所述采集客户端。
6.根据权利要求5所述的网页数据分布式模板采集方法,其特征在于,所述采集客户端分别根据所述数据采集模板对所述网页进行数据抽取,得到所述网页的网页数据,具体包括:
所述采集客户端根据所述数据采集模板提取所述网页的站点地址,并根据所述站点地址进行网页下载;
通过所述数据采集模板,基于XPATH技术对所述网页进行数据抽取,得到所述网页的网页数据。
7.根据权利要求1-6中任一所述的网页数据分布式模板采集方法,其特征在于,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表中的全部所述数据采集模板。
8.根据权利要求1-6中任一所述的网页数据分布式模板采集方法,其特征在于,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表,根据预设模板ID从所述数据表中获取与所述模板ID相应的数据采集模板。
9.根据权利要求1-6中任一所述的网页数据分布式模板采集方法,其特征在于,所述根据被采集的网页的类型从所述数据表中获取相应的数据采集模板,具体包括:
获取与所述网页的类型相对应的数据表,根据预设模板ID从所述数据表中获取大于所述模板ID数值个数据采集模板。
10.一种网页数据分布式模板采集***,其特征在于,包括:模板配置子***、采集服务器子***和采集客户端子***;用于实现如权利要求1-9中任一所述的网页数据分布式模板采集方法。
CN201810319851.0A 2018-04-11 2018-04-11 一种网页数据分布式模板采集方法及*** Active CN108763279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810319851.0A CN108763279B (zh) 2018-04-11 2018-04-11 一种网页数据分布式模板采集方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810319851.0A CN108763279B (zh) 2018-04-11 2018-04-11 一种网页数据分布式模板采集方法及***

Publications (2)

Publication Number Publication Date
CN108763279A true CN108763279A (zh) 2018-11-06
CN108763279B CN108763279B (zh) 2020-12-15

Family

ID=63981462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810319851.0A Active CN108763279B (zh) 2018-04-11 2018-04-11 一种网页数据分布式模板采集方法及***

Country Status (1)

Country Link
CN (1) CN108763279B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262904A (zh) * 2019-05-17 2019-09-20 北京达佳互联信息技术有限公司 数据采集方法及装置
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN117150105A (zh) * 2023-10-27 2023-12-01 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集***
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和***
US8250613B2 (en) * 2004-04-29 2012-08-21 Harris Corporation Media asset management system for managing video news segments and associated methods
US8413110B2 (en) * 2007-04-25 2013-04-02 Kai C. Leung Automating applications in a multimedia framework
CN103279507A (zh) * 2013-05-16 2013-09-04 北京尚友通达信息技术有限公司 网页爬虫操作方法和***
CN103618787A (zh) * 2013-11-26 2014-03-05 优视科技有限公司 一种网页展现***和方法
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及***
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与***
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及***
CN107766234A (zh) * 2017-08-31 2018-03-06 广州数沃信息科技有限公司 一种基于移动设备的网页健康度的测评方法、装置及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8250613B2 (en) * 2004-04-29 2012-08-21 Harris Corporation Media asset management system for managing video news segments and associated methods
US8413110B2 (en) * 2007-04-25 2013-04-02 Kai C. Leung Automating applications in a multimedia framework
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集***
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和***
CN103279507A (zh) * 2013-05-16 2013-09-04 北京尚友通达信息技术有限公司 网页爬虫操作方法和***
CN103618787A (zh) * 2013-11-26 2014-03-05 优视科技有限公司 一种网页展现***和方法
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及***
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与***
CN107220250A (zh) * 2016-03-21 2017-09-29 北大方正集团有限公司 一种模板配置方法及***
CN107766234A (zh) * 2017-08-31 2018-03-06 广州数沃信息科技有限公司 一种基于移动设备的网页健康度的测评方法、装置及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹茜茜: "基于Hadoop的电信大数据分析的设计与实现", 《中国优秀硕士学位论文 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN110262904A (zh) * 2019-05-17 2019-09-20 北京达佳互联信息技术有限公司 数据采集方法及装置
CN117150105A (zh) * 2023-10-27 2023-12-01 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台
CN117150105B (zh) * 2023-10-27 2023-12-26 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台

Also Published As

Publication number Publication date
CN108763279B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
KR100573037B1 (ko) 알에스에스 기반의 컨텐츠 추출 서버와 방법 및 그 서버관리 장치, 이를 이용하는 이동통신 단말장치의 대기화면 제공 시스템
CN107071009A (zh) 一种负载均衡的分布式大数据爬虫***
CN108763279A (zh) 一种网页数据分布式模板采集方法及***
CN107404480B (zh) 一种流媒体数据的传输方法、存储介质和流媒体服务器
CN103546830B (zh) 一种视频地址失效的处理方法及***
CN103309884A (zh) 用户行为数据采集方法及***
DE112016006832T5 (de) Indexer für natürliche Sprache für virtuelle Assistenten
CN110661660B (zh) 告警信息根源分析方法及装置
CN102663078A (zh) 一种用于生成网络社区中的待发布信息的方法与设备
CN107526755B (zh) 数据的处理方法及装置
DE102015101062B4 (de) Serversystem, Verfahren zur Steuerung eines Serversystems und Speichermedium
CN104657123B (zh) 一种动态导出文件的方法
CN108984641A (zh) 一种基于web端的页面跳转方法
CN103761257A (zh) 基于移动浏览器的网页处理方法及***
US8935285B2 (en) Searchable and size-constrained local log repositories for tracking visitors' access to web content
CN104902432A (zh) 生成移动终端应用操作日志的方法和设备
CN108108381B (zh) 页面的监测方法及装置
US10579699B2 (en) Computing system with dynamic web page feature
CN107506597A (zh) 医学文档获取方法、终端及服务器
DE102014208141A1 (de) Informationsverarbeitungsvorrichtung und Steuerungsverfahren für diese
CN108075922A (zh) 一种电信网络管理***
CN111698109A (zh) 监控日志的方法和装置
JP2001229106A (ja) コンテンツ変換システム
DE69925435T2 (de) Rechnerimplementiertes Verfahren und Apparat zur Bereitstellung eines logischen Zugriffspunktes zu einer oder mehreren Dateien
CN106503038B (zh) 一种自动缓存网络请求返回数据的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant