CN116070052A - 界面数据传输方法、装置、终端及存储介质 - Google Patents

界面数据传输方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN116070052A
CN116070052A CN202310042516.1A CN202310042516A CN116070052A CN 116070052 A CN116070052 A CN 116070052A CN 202310042516 A CN202310042516 A CN 202310042516A CN 116070052 A CN116070052 A CN 116070052A
Authority
CN
China
Prior art keywords
acquisition mode
target webpage
link
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310042516.1A
Other languages
English (en)
Inventor
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aijiwei Consulting Xiamen Co ltd
Original Assignee
Aijiwei Consulting Xiamen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aijiwei Consulting Xiamen Co ltd filed Critical Aijiwei Consulting Xiamen Co ltd
Priority to CN202310042516.1A priority Critical patent/CN116070052A/zh
Publication of CN116070052A publication Critical patent/CN116070052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种界面数据传输方法、装置、终端及存储介质。该方案可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。

Description

界面数据传输方法、装置、终端及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种界面数据传输方法、装置、终端及存储介质。
背景技术
在互联网上多数网页都有超链接的存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。数据采集***作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。面对大数据时代的到来,如果想对数据进行定量的分析,数据采集***的重要性越来越高。
在实际使用过程中,申请人发现目前市面上的数据采集***多为第一代数据采集***,第一代数据采集是利用计算机做重复性工作的优势,将数据分析师制作好的模板,进行批量的采集和处理。因此,如果原网站改版,则配置好的模板就会失效,需要数据分析师重新制作模块,而且对于网站文章的重复性问题也没有很好的规避,同时需要大量的数据分析师的介入,花费了大量的时间和精力,且采集效率也不高。
发明内容
本发明实施例提供一种界面数据传输方法、装置、终端及存储介质,可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
本发明实施例提供一种界面数据传输方法,包括:
确定目标网页并获取所述目标网页中的元素信息;
根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
本发明实施例还提供一种界面数据传输装置,包括:
确定单元,用于确定目标网页并获取所述目标网页中的元素信息;
设置单元,用于根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
采集单元,用于根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
存储单元,用于将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
本发明实施例还提供一种终端,所述终端包括:存储器、处理器,其中,所述存储器上存储有应用程序处理程序,所述应用程序处理程序被所述处理器执行时实现本发明实施例所提供的任一项所述的界面数据传输方法的步骤。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一界面数据传输方法。
本发明实施例提供的界面数据传输方法,可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的界面数据传输方法的第一种流程示意图;
图2是本发明实施例提供的界面数据传输方法的第二种流程示意图;
图3是本发明实施例提供的界面数据传输装置的第一种结构示意图;
图4是本发明实施例提供的界面数据传输装置的第二种结构示意图;
图5是本发明实施例提供的终端的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,在本文中,采用了诸如101、102等步骤代号,其目的是为了更清楚简要地表述相应内容,不构成顺序上的实质性限制,本领域技术人员在具体实施时,可能会先执行102后执行101等,但这些均应在本申请的保护范围之内。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种界面数据传输方法,该界面数据传输方法的执行主体可以是本发明实施例提供的界面数据传输装置,或者集成了该界面数据传输装置的智能终端及服务器,其中该界面数据传输装置可以采用硬件或者软件的方式实现。
在描述本发明的技术方案之前,先对相关的技术术语进行简单解释:
url:uniformresource locator (统一资源定位***),因特网的万维网服务程序上用于指定信息位置的表示方法。
href:HypertextReference(指定超链接目标的URL),href 属性的值可以是任何有效文档的相对或绝对URL,包括片段标识符和JavaScript代码段。
header:标头,是服务器以HTTP协议传HTML资料到浏览器前所送出的字串,在标头与 HTML 文件之间尚需空一行分隔。
API:Application Programming Interface(应用程序编程接口),是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
如图1所示,图1是本发明实施例提供的界面数据传输方法的第一流程示意图,该界面数据传输方法的具体流程可以如下:
101、确定目标网页并获取目标网页中的元素信息。
在一实施例中,元素信息为网页的组成元素,目标网页的元素信息可以包括该网页的网站名称、网站地址、根域地址、网站所属地区以及网页的html文本等。进一步的,还可以包括网页中的文本、图像、动画、音频、视频、超链接、导航类以及表格等元素。
其中,在html网页或xml网页中,网页元素可以包含多个子节点,每个子节点分别包含不同的信息,从而使网页元素成为一个具备完整信息的节点。用户点击网页元素时,该网页元素将被获取。根据获取到的网页元素,对应地显示不同的功能选项组,以便用户对功能选项组中的功能选项进行选择。用户选择的结果即对应于用户所需采集的具体数据,如网页元素的文本、注释、属性值等。
102、根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式。
在本申请实施例中,在采集网页的链接数据时可以通过两种采集方式进行,当使用html采集模式时,***可以直接拉取网站的html内容来解析,当使用模拟器采集模式时,***可以打开一个模拟的浏览器,先加载js和html 等加载完成之后再去采集内容。
其中两种采集模式的区别是html采集模式速度快,模拟器采集模式采集内容更丰富且兼容性也较强。因此,本申请实施例还可以根据目标网页的类型以及元素信息来选择使用哪种采集模式。比如可以先获取目标网页的安全等级或者对应域名的访问频率,从而可以将安全等级或访问频率较高的网页设置为模拟器采集模式,安全等级或访问频率较不高的网页则可以设为html采集模式。再比如,还可以先获取目标网页的元素信息中所包含的链接数量,当链接数量较多时,就可以使用模拟器采集模式。
在另一实施例中,还可以分别获取上述目标网页的安全等级、目标网页对应域名的访问频率以及目标网页中的元素信息中所包含的链接数量,然后综合这三个因素判断使用html采集模式还是模拟器采集模式,比如分别设置上述三个因素的权重比,然后根据各自的权重比进行计算,也即所述根据所述目标网页的类型以及所述元素信息设置采集模式的步骤可以包括:获取所述目标网页的安全等级以及所述目标网页对应域名的访问频率,计算所述目标网页中的元素信息中所包含的链接数量,根据所述安全等级、访问频率和链接数量以及各自对应的权重从所述html采集模式和模拟器采集模式中确定目标采集模式。
103、根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据。
在本申请实施例中,可以预先针对不同的爬取链接设置不同的配置参数,任务分配器基于所创建的爬取任务生成爬取流程,并分配爬取任务在多个不同的爬取终端或者用户级的协程,最终爬取目标网页中的链接数据。
其中,上述配置参数可以包括目标网页的数据源更新频率、目标网页的详情页访问频率、目标网页的链接抽取规则和至少一个链接的位置、以及目标网页的登录信息。
104、将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。
在获取到上述目标网页中的链接数据后,还可以进一步获取该链接数据对应的标题、任务ID、详情页地址以及网站等信息,作为一个结构体存到一个结构体中,并把结构体存到切片中备用,最后把切片内的内容统一写入到数据库中,建立下一步的任务流程,并更新原始任务的时间,及获取到的链接数量并标识处理完成。
由上所述,本发明实施例提出的界面数据传输方法可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
根据前面实施例所描述的方法,以下将作进一步详细说明。
请参阅图2,图2是本发明实施例提供的界面数据传输方法的第二种流程示意图。所述方法包括:
201、确定目标网页并获取目标网页中的元素信息。
在一实施例中,目标网页的元素信息可以包括该网页的网站名称、网站地址、根域地址、网站所属地区以及网页的html文本等。
202、根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式。
在一实施例中,还可以预先确认采集类型,其中采集类型可以包括列表模式或单页模式。然后进一步设置采集模式,具体可以根据目标网页的类型以及元素信息设置html采集模式或模拟器采集模式,具体设置方式请参考上一实施例描述,本实施例不做进一步描述。
进一步的,在采集目标网页的链接数据之前,还可以预先填写采集页面的详细信息,设置访问数据源的间隔从而做更新频率控制,设置采集详情页的间隔从而做访问频率的限制。在填写分页地址时,若采集模式为html采集模式,则在采集时填写的是下页的url,中间包含可替换参数来确认下一页的具体地址;若采集模式为模拟器采集模式,则填写的是下一页的元素或多个元素的块,来识别下一页的点击位置并等待模拟浏览器的执行后继续采集任务。
在一实施例中,可以进一步设置链接抽取规则、抽取链接的具体元素位置以及标题抽取规则。其中链接抽取规则具体包括支持Xpath的抽取规则、支持cssselector或jspath的抽取规则等。如果有需要登录才可获取的元素,还需要填写登录名以及登录密钥。设置API的参数以及获取方式,比如获取方式为get方式或post方式,API的header配合网页抓取方式,如果是API方式的获取数据,就可以选择填写header参数。如果有其他需要特殊的处理方式,还需要选择或填写某些特定的参数作为特殊处理的方式,其中可选项可以包括:相对路径、根据分页模式自动识别下一页、浏览器、链接块、深层查找模式、相对链接位置以及前置处理等。
203、当采集模式为html采集模式时,将链接抽取规则设置为统一的数据格式;
具体的,当使用html采集模式时,可以分发给普通任务处理器,根据当前的配置id优先获取到存储介质当中的历史记录,尝试***并开始抓取任务,比如启用go colly作为基础抓取工具。然后判断链接抽取规则中的设置为css selector还是js path并处理成统一的数据格式。
204、依据数据格式拉取数据并获取标头字串的编码,并以预设编码格式对标头字串的编码进行修改。
拉取数据并判断header(标头)的编码,其中,如果是utf-8的编码则不用特殊处理编码,如果是GBK或GB2312的编码,则设置预处理标题的设置为GBK的方式。
205、根据目标网页的链接抽取规则获取相应的html代码块,在html代码块中查找href属性值以作为链接数据。
在一实施例中,在html代码块中查找href属性值以作为链接数据之后,方法还可以包括:判断链接数据的地址是否为空;若不为空,则进一步判断链接数据的地址是否以http开头;若不以http开头,则根据相对路径配置将详情页与链接数据的地址进行拼接以作为新的链接数据地址。
具体的,可以先设置网站的重试次数,然后根据链接抽取规则对应的配置拉取到相应的html代码块,拿到html块内的多元素以进行循环处理,判断结尾元素是否为a链接,如果是a结尾,则可以直接查找a链接里的href属性以获取相应的链接地址,如果不是a结尾,则可以检查相对链接位置的配置以决定抓取的元素,进一步的,若没有相对链接位置的配置,则直接查找a元素并查找a链接里的href属性以获取到链接地址。
进一步的,检查获取到的链接地址是否为空,如果不为空,则判断是否是http开头的链接,针对http为开头的链接不用相应的处理,针对不是http为开头的元素,则为需要判断相对路径的配置并处理相对路径。具体的,如果是以../为开头的链接地址,可以拆分详情页的地址作为一个url的结构体使用go中的url的Parse函数,把详情页的path部分根据/为分隔符拆分为切片,查找当前抓取到链接的../的数量,确定相对路径的层级并根据获取到的数量将获取到的切片拼接成新的链接地址。如果不是以../为开头的链接地址,就可以直接拼接详情页的地址与获取到的链接地址作为新的链接地址。
进一步查看是否配置了标题配置,如果没有配置标题配置,则直接获取a链接里的title或抓取a标签里的文字作为标题字段,如果配置了标题配置,则抓取a链接里的对应元素的文字作为标题字段。
206、当采集模式为模拟器采集模式时,通过模拟器加载目标网页。
207、基于目标网页中至少一个链接的位置,以元素块为单位采集里面所有链接数据。
具体的,当使用模拟器采集模式时,分发给高级任务处理器,可以采用goselenuim来处理高级任务,用chrome或firefox浏览器的模拟模式来打开页面选择采集元素。如果是chrome连接,则通过服务器的chromeDriver来处理相应请求,如果是firefox链接,则通过服务器的geckoDriver来处理相应请求。***使用模拟器来打开相应的链接,判断是否需要前置处理,如果设置了前置处理程序,则分析前置处理的操作并做相应的点击操作,如果没有设置前置处理程序,则继续当前的流程。拉取相对应的旧数据,并设置重试次数、对比重复率、及循环停止标识。模拟打开相应的浏览器作为载体访问预先配置的详情页,开始循环并等待页面加载完成获取到页面上的元素,再根据预先配置的可选项来确定拉取链接的方式并获取到相应的链接和标题。拿到链接后与上述旧数据作对比,如果拿不到链接则尝试重试,重试超过次数则退出标识任务失败。在进行对比时具体判断数据是否同上一页的数据相同,如果相同,则增加重试次数并尝试再次加载数据,若重复率大于或等于重复率阈值,则退出循环并把剩余数据存入切片中,若重复率小于重复率阈值,则可以把数据存入数据切片,根据下一页的配置和分页的配置寻找按钮点击翻页,并继续循环。如果重试次数超过设定值或不再出现翻页的按钮或按钮无法点击,则认为整体采集完成并退出,此时循环结束并存储数据。
208、将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。
具体的,可以把获取到的标题和地址、任务id 、详情页地址以及网站作为一个结构体,并把结构体存到切片中备用。进一步的,如果配置了分页配置,则同样执行相应的流程。
最后把切片内的内容统一写入到数据库中,建立下一步的任务流程,更新原始任务的时间及获取到的链接数量并标识处理完成。
相对于传统的爬取方式,每个网站需要单独写一套独立的代码去做兼容,实施重复率很高且不好管理,没有实现数据可视化且更新难度极大。本发明主旨就是解决以上的问题,整体全部可视化,可配置,多兼容,随意扩容,支持动态采集及静态采集等优势来解决当前的困局。
由上所述,本发明实施例提出的界面数据传输方法可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,当采集模式为html采集模式时,将链接抽取规则设置为统一的数据格式,依据数据格式拉取数据并获取标头字串的编码,并以预设编码格式对标头字串的编码进行修改,根据目标网页的链接抽取规则获取相应的html代码块,在html代码块中查找href属性值以作为链接数据,当采集模式为模拟器采集模式时,通过模拟器加载目标网页,基于目标网页中至少一个链接的位置,以元素块为单位采集里面所有链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
为了实施以上方法,本发明实施例还提供一种界面数据传输装置,该界面数据传输装置具体可以集成在终端设备如手机、平板电脑等设备中。
例如,如图3所示,是本发明实施例提供的界面数据传输装置的第一种结构示意图。该界面数据传输装置可以包括:
确定单元301,用于确定目标网页并获取所述目标网页中的元素信息;
设置单元302,用于根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
采集单元303,用于根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
存储单元304,用于将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
在一实施例中,请参阅图4,图4是本发明实施例提供的界面数据传输装置的第二种结构示意图,该设置单元302具体包括:
获取子单元3021,用于获取所述目标网页的安全等级以及所述目标网页对应域名的访问频率;
计算子单元3022,用于计算所述目标网页中的元素信息中所包含的链接数量;
确定子单元3023,用于根据所述安全等级、访问频率和链接数量以及各自对应的权重从所述html采集模式和模拟器采集模式中确定目标采集模式。
在一实施例中,配置参数可以包括目标网页的数据源更新频率、目标网页的详情页访问频率、目标网页的链接抽取规则和至少一个链接的位置、以及目标网页的登录信息。
在一实施例中,继续参阅图4,采集单元303可以包括:
第一采集单元3031,用于当所述采集模式为html采集模式时,根据所述目标网页的链接抽取规则获取相应的html代码块,在所述html代码块中查找href属性值以作为链接数据。
第二采集单元3032,用于当所述采集模式为模拟器采集模式时,通过模拟器加载所述目标网页,基于目标网页中至少一个链接的位置,以元素块为单位采集里面所有链接数据。
本发明实施例提出的界面数据传输装置,可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
本发明实施例还提供一种终端,如图5所示,该终端可以包括射频(RF,RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,LowNoise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS ,GeneralPacket Radio Service)、码分多址(CDMA,CodeDivision Multiple Access)、宽带码分多址(WCDMA,WidebandCode Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short MessagingService)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,OrganicLight-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理***与处理器608逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:
确定目标网页并获取所述目标网页中的元素信息;
根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对界面数据传输方法的详细描述,此处不再赘述。
由上可知,本发明实施例的终端可以确定目标网页并获取目标网页中的元素信息,根据目标网页的类型以及元素信息设置采集模式,采集模式包括html采集模式以及模拟器采集模式,根据目标网页设置配置参数,基于采集模式和配置参数采集目标网页中的链接数据,将链接数据以及与链接数据对应的标题信息和详情页信息传输至数据库中并存储。本申请实施例所提供的方案可以根据目标网页选择对应采集模式以及配置参数,进而快速提取网页链接,有效提升了采集效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种界面数据传输方法中的步骤。例如,该指令可以执行如下步骤:
确定目标网页并获取所述目标网页中的元素信息;
根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种界面数据传输方法中的步骤,因此,可以实现本发明实施例所提供的任一种界面数据传输方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种界面数据传输方法、装置、终端及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种界面数据传输方法,其特征在于,包括:
确定目标网页并获取所述目标网页中的元素信息;
根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
2.如权利要求1所述的界面数据传输方法,其特征在于,所述根据所述目标网页的类型以及所述元素信息设置采集模式的步骤,包括:
获取所述目标网页的安全等级以及所述目标网页对应域名的访问频率;
计算所述目标网页中的元素信息中所包含的链接数量;
根据所述安全等级、访问频率和链接数量以及各自对应的权重从所述html采集模式和模拟器采集模式中确定目标采集模式。
3.如权利要求1所述的界面数据传输方法,其特征在于,所述配置参数包括所述目标网页的数据源更新频率、所述目标网页的详情页访问频率、所述目标网页的链接抽取规则和至少一个链接的位置、以及所述目标网页的登录信息。
4.如权利要求3所述的界面数据传输方法,其特征在于,所述基于所述采集模式和所述配置参数采集所述目标网页中的链接数据的步骤,包括:
当所述采集模式为html采集模式时,根据所述目标网页的链接抽取规则获取相应的html代码块;
在所述html代码块中查找href属性值以作为链接数据。
5.如权利要求4所述的界面数据传输方法,其特征在于,在获取相应的html代码块之前,所述方法还包括:
将所述链接抽取规则设置为统一的数据格式;
依据所述数据格式拉取数据并获取标头字串的编码,并以预设编码格式对所述标头字串的编码进行修改。
6.如权利要求4所述的界面数据传输方法,其特征在于,在所述html代码块中查找href属性值以作为链接数据之后,所述方法还包括:
判断所述链接数据的地址是否为空;
若不为空,则进一步判断所述链接数据的地址是否以http开头;
若不以http开头,则根据相对路径配置将详情页与所述链接数据的地址进行拼接以作为新的链接数据地址。
7.如权利要求3所述的界面数据传输方法,其特征在于,所述基于所述采集模式和所述配置参数采集所述目标网页中的链接数据的步骤,包括:
当所述采集模式为模拟器采集模式时,通过模拟器加载所述目标网页;
基于所述目标网页中至少一个链接的位置,以元素块为单位采集里面所有链接数据。
8.一种界面数据传输装置,其特征在于,包括:
确定单元,用于确定目标网页并获取所述目标网页中的元素信息;
设置单元,用于根据所述目标网页的类型以及所述元素信息设置采集模式,所述采集模式包括html采集模式以及模拟器采集模式;
采集单元,用于根据所述目标网页设置配置参数,基于所述采集模式和所述配置参数采集所述目标网页中的链接数据;
存储单元,用于将所述链接数据以及与所述链接数据对应的标题信息和详情页信息传输至数据库中并存储。
9.一种终端,其特征在于,所述终端包括:存储器、处理器,其中,所述存储器上存储有应用程序处理程序,所述应用程序处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的界面数据传输方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的界面数据传输方法。
CN202310042516.1A 2023-01-28 2023-01-28 界面数据传输方法、装置、终端及存储介质 Pending CN116070052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310042516.1A CN116070052A (zh) 2023-01-28 2023-01-28 界面数据传输方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310042516.1A CN116070052A (zh) 2023-01-28 2023-01-28 界面数据传输方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN116070052A true CN116070052A (zh) 2023-05-05

Family

ID=86179711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310042516.1A Pending CN116070052A (zh) 2023-01-28 2023-01-28 界面数据传输方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN116070052A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574010A (zh) * 2023-11-03 2024-02-20 中信建投证券股份有限公司 一种数据采集方法、装置、设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150255086A1 (en) * 2014-03-07 2015-09-10 Ebay Inc. Interactive voice response interface for webpage navigation
CN106484828A (zh) * 2016-09-29 2017-03-08 西南科技大学 一种分布式互联网数据快速采集***及采集方法
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质
CN109413050A (zh) * 2018-10-05 2019-03-01 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及***
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN110489626A (zh) * 2019-08-05 2019-11-22 苏州闻道网络科技股份有限公司 一种信息采集方法和装置
CN110929184A (zh) * 2018-09-19 2020-03-27 北京国双科技有限公司 链接的显示方法、***、存储介质和处理器
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及***
CN113849718A (zh) * 2021-09-28 2021-12-28 上海烟草集团有限责任公司 互联网烟草科技情报信息自动采集装置、方法与存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150255086A1 (en) * 2014-03-07 2015-09-10 Ebay Inc. Interactive voice response interface for webpage navigation
CN106484828A (zh) * 2016-09-29 2017-03-08 西南科技大学 一种分布式互联网数据快速采集***及采集方法
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质
CN110929184A (zh) * 2018-09-19 2020-03-27 北京国双科技有限公司 链接的显示方法、***、存储介质和处理器
CN109413050A (zh) * 2018-10-05 2019-03-01 国网湖南省电力有限公司 一种访问速率自适应的互联网漏洞信息采集方法及***
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN110489626A (zh) * 2019-08-05 2019-11-22 苏州闻道网络科技股份有限公司 一种信息采集方法和装置
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及***
CN113849718A (zh) * 2021-09-28 2021-12-28 上海烟草集团有限责任公司 互联网烟草科技情报信息自动采集装置、方法与存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574010A (zh) * 2023-11-03 2024-02-20 中信建投证券股份有限公司 一种数据采集方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US10109079B2 (en) Method and apparatus for processing tab in graphical interface
CN107247691B (zh) 一种文本信息的显示方法、装置、移动终端及存储介质
CN111125269B (zh) 一种数据管理方法、血缘关系显示方法和相关装置
CN108156508B (zh) 弹幕信息处理的方法、装置、移动终端、服务器及***
CN107766358B (zh) 一种页面分享的方法及相关装置
CN103279574A (zh) 一种浏览器图片的加载方法、装置和终端设备
CN109948090B (zh) 网页加载方法及装置
CN110020293B (zh) 多媒体数据展示方法、装置及存储介质
CN103699595A (zh) 一种终端浏览器的页面缓存方法和装置及终端
CN104182429A (zh) 网页处理方法和终端
CN110032493A (zh) 页面的监控方法、装置、终端及可读存储介质
CN111078986A (zh) 数据检索方法、装置及计算机可读存储介质
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN105868319B (zh) 网页加载方法及装置
CN110674444B (zh) 一种动态网页下载的方法及终端
CN112749074B (zh) 一种测试用例推荐方法以及装置
CN108984374B (zh) 一种数据库性能的测试方法和***
CN116070052A (zh) 界面数据传输方法、装置、终端及存储介质
CN108763297A (zh) 网页资源处理方法、装置以及移动终端
WO2015096660A1 (en) Methods and devices for displaying a webpage
US10140265B2 (en) Apparatuses and methods for phone number processing
CN108268232B (zh) 一种图片显示方法、装置、***和存储介质
CN105095161B (zh) 一种显示富文本信息的方法及装置
CN106230919B (zh) 一种文件上传的方法和装置
US9306884B2 (en) Computer-based method and system for processing a file request in response to a message received from a user mobile device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230505

RJ01 Rejection of invention patent application after publication