CN111090797B - 数据获取方法、装置、计算机设备和存储介质 - Google Patents

数据获取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111090797B
CN111090797B CN201911198993.7A CN201911198993A CN111090797B CN 111090797 B CN111090797 B CN 111090797B CN 201911198993 A CN201911198993 A CN 201911198993A CN 111090797 B CN111090797 B CN 111090797B
Authority
CN
China
Prior art keywords
webpage
target
path information
elements
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911198993.7A
Other languages
English (en)
Other versions
CN111090797A (zh
Inventor
张冠龙
孙慧生
高勇
蒋旭曦
朱宏雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Biying Technology Co ltd
Jiangsu Suning Cloud Computing Co ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201911198993.7A priority Critical patent/CN111090797B/zh
Publication of CN111090797A publication Critical patent/CN111090797A/zh
Application granted granted Critical
Publication of CN111090797B publication Critical patent/CN111090797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种网页元素的数据获取方法、装置、计算机设备和存储介质,所述方法包括:获取第一目标网页的第一网页元素路径信息;当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息;根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。上述方法能够针对不同网页的网页结构批量获取目标元素的网页数据。

Description

数据获取方法、装置、计算机设备和存储介质
技术领域
本申请涉及网页元素处理技术领域,特别是涉及一种网页元素的数据获取方法、装置、计算机设备和存储介质。
背景技术
随着浏览器的盛行,越来越多的网络应用应运而生。网络应用中存在大量有价值的网页数据。例如,电商网站商品列表信息数据、博客文章列表数据、微博热门数据等。不同的网页具有不同的网页结构,如何批量获取这些网页数据是网页数据抓取需要解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够针对不同网页的网页结构批量获取目标元素的网页数据的一种网页元素的数据获取方法、装置、计算机设备和存储介质。
一种网页元素的数据获取方法,该方法包括:获取第一目标网页的第一网页元素路径信息;当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息;根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
在其中一个实施例中,获取第一目标网页的第一网页元素路径信息,包括:遍历第一目标网页的DOM树结构,根据遍历结果生成第一网页元素路径信息。
在其中一个实施例中,一种网页元素的数据获取方法还包括:根据第一网页元素在第一目标网页中的坐标值获取第一网页元素的边界值;根据边界值生成对第一网页元素的遮罩层;获取被触发的第一网页元素的路径信息,包括:根据遮罩层获取被触发的第一网页元素的路径信息。
在其中一个实施例中,一种网页元素的数据获取方法还包括:获取第一目标网页中的翻页信息;根据翻页信息获取第二目标网页;获取第二目标网页的第二网页元素路径信息;当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息;根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息;根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
在其中一个实施例中,根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,包括:根据第一相似路径信息以及第一网页元素路径信息,从第一目标网页中获取被触发的同类型的第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、同级元素和父级元素作为第一目标元素。
在其中一个实施例中,获取多个第一目标元素的网页数据,包括:获取第一目标网页的配置信息,配置信息用于指示提取第一目标网页的网页元素中预设参数的数据;根据配置信息获取多个第一目标元素的网页数据。
在其中一个实施例中,预设参数包括文字参数和/或链接参数,根据配置信息获取多个第一目标元素的网页数据,包括:根据配置信息获取多个第一目标元素中的文字数据和/或链接数据,网页数据包括文字数据和链接数据。
一种网页元素的数据获取装置,该装置包括:第一获取模块,用于获取第一目标网页的第一网页元素路径信息;第二获取模块,用于当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;第三获取模块,用于根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息;第四获取模块,用于根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例方法的步骤。
上述网页元素的数据获取方法、装置、计算机设备和存储介质,获取第一目标网页的第一网页元素路径信息。并且,当触发第一目标网页中至少两个同类型的网页元素时,获取被触发的第一网页元素的路径信息,根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息。进一步地,根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,最终获取多个第一目标元素的网页数据。因此,上述方法能够针对不同网页的网页结构,通过网页的网页元素路径信息和该网页中同类型元素的路径信息,即可批量获取该网页下同类型元素的网页数据。
附图说明
图1为一个实施例中一种网页元素的数据获取方法的应用环境图;
图2为一个实施例中一种网页元素的数据获取方法的流程示意图;
图3为另一个实施例中一种网页元素的数据获取方法的流程示意图;
图4为一个实施例中RPA设计器的界面示意图;
图5为图4对应的网页界面的界面示意图;
图6为另一个实施例中RPA设计器的界面示意图;
图7为图6对应的网页界面的界面示意图;
图8为又一个实施例中RPA设计器的界面示意图;
图9为一个实施例中目标网页的界面示意图;
图10为另一个实施例中目标网页的界面示意图;
图11为一个实施例中一种网页元素的数据获取装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种网页元素的数据获取方法,应用于如图1所示的应用环境中。服务器110用于实现本申请的一种网页元素的数据获取方法。其中,服务器110可以是支持RPA(Robotic Process Automation,机器人处理自动化)设计器运行的计算机设备。服务器110与终端设备120通信连接。终端设备120为网页数据信息的消费者使用的用户终端设备。终端设备120可以展示不同网页结构的网页。当终端设备120展示第一目标网页121时,服务器110获取第一目标网页121中的第一网页元素路径信息。当用户触发第一目标网页121的至少两个同类型的网页元素,例如触发第一目标网页121中同为标题类型的两个标题时,服务器110获取被触发的第一网页元素的路径信息,进而根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息,根据第一相似路径信息以及第一网页元素的路径信息确定第一目标网页中的多个第一目标元素,最终获取多个第一目标元素的网页数据。此外,服务器110还与终端设备130通信连接。终端设备130为对网页数据信息进行数据处理的研发人员使用的终端设备。研发人员使用终端设备130对服务器110进行对应操作。服务器110获得的多个第一目标元素的网页数据可以显示在终端设备130的显示界面131中,以便研发人员预览。其中,服务器110可以是由多个服务器构成的服务器集群实现,终端设备120可以是笔记本、台式电脑以及其他移动设备等。
在一个实施例中,如图2所示,提供了一种网页元素的数据获取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S101,获取第一目标网页的第一网页元素路径信息。
在本实施例中,当终端设备打开第一目标网页时,服务器获取终端设备中第一目标网页的第一网页元素路径信息。获取的方式可以是,服务器解析第一目标网页的DOM(Document Object Model,文档对象模型)树结构,根据第一目标网页的DOM树结构获取第一目标网页的第一网页元素路径信息。第一网页元素路径信息用于标识出第一目标网页中所有网页元素的路径信息。
在一个实施例中,步骤S101包括:遍历第一目标网页的DOM树结构,根据遍历结果生成第一网页元素路径信息。
在该实施例中,服务器通过遍历第一目标网页的DOM树结构的方式生成第一目标网页的第一网页元素路径信息。具体地,当终端通过鼠标分别点击第一目标网页中的目标元素A和目标元素B时,服务器逐层往上遍历整个第一目标网页的DOM树,以生成可以唯一标识第一目标网页的第一网页元素路径信息。例如,第一网页元素路径信息为html->body->div->table。
S103,当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息。
在本实施例中,当第一目标网页中至少两个同类型的网页元素被触发时,服务器获取被触发的第一网页元素的路径信息。此处,至少两个同类型的网页元素被触发可以是,至少两个同类型的网页元素先后被触发,或者是至少两个同类型的网页元素同时被触发。本实施例中,服务器只要检测到至少两个同类型的网页元素处于被触发的状态即可。其中,同类型的网页元素指的是在第一目标网页中被标识为同一类型的网页元素。被触发的第一网页元素为多个。网页元素被触发的方式可以是,人工触发终端设备中的第一目标网页中的网页元素。或者,服务器将第一目标网页读取到服务器后,由研发人员通过与服务器通信连接的终端设备触发服务器中的第一目标网页中的网页元素。此外,由于服务器可以从展示第一目标网页的终端设备中直接读取第一目标网页中所有网页元素的路径信息,当第一网页元素被触发时,服务器可以直接读取到第一网页元素的路径信息。
S105,根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息。
在本实施例中,被触发的第一网页元素为多个,服务器根据被触发的多个第一网页元素的路径信息获取第一相似路径信息。第一相似路径信息包含多个第一网页元素的路径信息中路径结构相似的路径信息。例如,第一网页元素A的路径信息为:html->body->div->table->tr[1],第一网页元素B的路径信息为:html->body->div->table->tr[2]。此时,第一相似路径信息包括html->body->div->table->tr。
S107,根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
在本实施例中,服务器根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素。确定的方式可以是,从第一网页元素路径信息中获取与第一相似路径信息匹配的所有路径信息,再将该匹配的所有路径信息对应的网页元素作为第一目标元素。例如,第一相似路径信息包括html->body->div->table->tr。此时,在第一网页元素路径信息获取路径结构前缀包含有html->body->div->table->tr的所有路径信息对应的网页元素作为第一目标元素。最后,将获取所有第一目标元素的网页数据,从而实现在第一目标网页中批量获取具有相似路径的所有元素的网页数据。
在具体的实现过程中,第一目标网页为网页列表。通过鼠标点击网页列表下的目标元素A和网页列表下的目标元素B。目标元素A和目标元素B为上述被触发的同类型的第一网页元素。服务器逐层往上遍历整个网页列表的DOM树,生成可以唯一标识网页列表的第一元素路径信息为:html->body->div->table,以及目标元素A的路径信息为:html->body->div->table->tr[1],目标元素B的路径信息为:(html->body->div->table->tr[2])。因此,得到的第一相似路径信息为:html->body->div->table->tr。根据网页列表的第一元素路径信息以及第一相似路径信息,可以检索该网页列表下所有相似路径的元素,也即是上述多个第一目标元素。最终获取多个第一目标元素的网页数据,从而实现批量获取网页列表中具有相似路径的网页元素的网页数据。
上述网页元素的数据获取方法,获取第一目标网页的第一网页元素路径信息。并且,当触发第一目标网页中至少两个同类型的网页元素时,获取被触发的第一网页元素的路径信息,根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息。进一步地,根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,最终获取多个第一目标元素的网页数据。因此,上述方法能够针对不同网页的网页结构,通过网页的网页元素路径信息和该网页中同类型元素的路径信息,即可批量获取该网页下同类型元素的网页数据。此外,上述方法通过解析网页的网页元素路径信息的方式批量获取网页数据,适用于获取任何网页结构的网页数据。
在一个实施例中,步骤S103之前,还包括步骤:根据第一网页元素在第一目标网页中的坐标值获取第一网页元素的边界值;根据边界值生成对第一网页元素的遮罩层。此时,步骤S103包括:根据遮罩层获取被触发的第一网页元素的路径信息。
在该实施例中,采用坐标系的方式标识第一目标网页中各个网页元素在第一目标网页中的位置。当触发第一目标网页中的第一网页元素时,获取第一网页元素在第一目标网页中的坐标值,根据该坐标值获取第一网页元素的边界值。进一步地,根据该边界值生成对第一网页元素的遮罩层,以使得第一网页元素内包含跳转链接属性的内容被触发时不发生链接跳转。进一步地,服务器根据遮罩层获取被触发的第一网页元素的路径信息。具体为,服务器识别到第一网页元素的遮罩层时,获取第一网页元素的路径信息。若第一网页元素中包含可跳转的链接属性内容,服务器识别到第一网页元素的遮罩层,此时在第一网页元素被触发时可获取第一网页元素的路径信息,从而避免第一网页元素被触发时发生跳转而不能获取到第一网页元素的路径信息。
在一具体实现过程中,通过鼠标滑过第一目标网页的某个网页元素,即被触发的第一网页元素时,根据第一网页元素在当前第一目标网页的(x,y)坐标值(第一目标网页的坐标为用x坐标系和y坐标系表示的二维坐标)获取第一网页元素的矩形框的边界值。通过边界值生成对第一网页元素的遮罩层,该遮罩层通过对第一网页元素绘图边框来保证鼠标滑过第一网页元素抓取目标内容时,带有href(用于指定超链接目标的URL(统一资源定位标志))属性的目标内容不会点击跳转。
在一个实施例中,如图3所示,步骤S107之后,还包括步骤:
S109,获取第一目标网页中的翻页信息。
S111,根据翻页信息获取第二目标网页。
S113,获取第二目标网页的第二网页元素路径信息。
S115,当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息。
S117,根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息。
S119,根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
在该实施例中,第一目标网页中包含有翻页信息。翻页信息用于指示网页从当前网页跳转到另一网页。其中,翻页信息可以是跳转链接指示信息。服务器根据第一目标网页中的翻页信息获取第二目标网页,进而针对第二目标网页执行类似步骤S101至步骤S107的操作,以获取第二目标网页中的目标元素的网页数据。具体地,当第二目标网页中至少两个同类型的网页元素被触发时,服务器获取被触发的第二网页元素的路径信息,根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息。最后,根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
例如,通过一个或多个入口地址获取第一目标网页中目标元素的网页数据。如第一网页的文章列表地址:https://www.cnblogs.com/#p1,获取第一网页中目标元素的网页数据。具体根据步骤S101至步骤S107的操作完成对该第一网页的文章列表的网页数据的抓取。根据入口页面的翻页信息,即第一网页的翻页信息,如链接指向:https://www.cnblogs.com/#p2,进入下一级网页,即第二目标网页。在第二目标网页中执行步骤S109至步骤S119的操作,以抓取第二目标网页中的目标元素的网页数据。无限循环,直到执行完翻页信息。
在一个实施例中,步骤S107包括:根据第一相似路径信息以及第一网页元素路径信息,从第一目标网页中获取被触发的同类型的第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、同级元素和父级元素作为第一目标元素。
在该实施例中,第一相似路径信息为根据被触发的同类型的第一网页元素的路径信息确定的路径结构相似的路径信息。第一网页元素路径信息为第一目标网页的网页元素的路径信息的集合。根据第一相似路径信息以及第一网页元素路径信息可以确定出被触发的同类型的第一网页元素的同级元素以及父级元素。具体可以是,从第一网页元素路径信息中获取与相似路径信息匹配的所有路径信息,根据该所有路径信息从第一目标网页中获取到触发的同类型的第一网页元素的同级元素以及父级元素。
在一个实施例中,步骤S107包括:获取第一目标网页的配置信息,配置信息用于指示提取第一目标网页的网页元素中预设参数的数据;根据配置信息获取多个第一目标元素的网页数据。
在该实施例中,第一目标网页的网页元素包含多个参数对应的数据。在具体的实现过程中,获取到的目标元素往往是html元素,会有title属性信息、href属性信息、class属性信息等属性对应的网页数据,因此可对最终获取的数据进行提前配置。该实施方式中,服务器根据第一目标网页的配置信息获取多个第一目标元素中预设参数的网页数据。
在一个实施例中,预设参数包括文字参数和/或链接参数。根据配置信息获取多个第一目标元素的网页数据,包括:根据配置信息获取多个第一目标元素中的文字数据和/或链接数据,网页数据包括文字数据和链接数据。
在该实施例中,预设参数包括文字参数和/或链接参数。配置信息用于指示提取第一目标网页的网页元素中文字参数和/或链接参数的网页数据。服务器根据配置信息中的指示参数,从多个第一目标元素中提取文字数据和/或链接数据。
针对上述网页元素的数据获取方法,以下给出一具体实施场景,以对上述网页元素的数据获取方法进行进一步详述:
实现本申请的一种网页元素的数据获取方法的服务器为支持RPA(RoboticProcess Automation,机器人处理自动化)设计器运行的计算机设备。因此,RPA设计器采用上述一种网页元素的数据获取方法可以实现不同网页不同类别的网页数据的提取。例如针对传统电商网站的商品列表信息,可一次性提取商品名称或价格或描述或评价或销量等相关信息。具体地,如图4所示,RPA设计器的显示界面提示研发人员,在目标网页中先选择数据表1。如图5所示,研发人员打开目标网页之后,使用鼠标触发选择第一标题。RPA设计器读取到第一标题的路径信息以及网页数据之后,如图6所示,RPA设计器的显示界面提示研发人员,在目标网页中先选择数据表2。如图7所示,研发人员继续打开目标网页,使用鼠标触发选择第二标题。RPA设计器读取到第二标题的路径信息以及网页数据。其中,此处的第一标题和第二标题即为上述目标网页的被触发的同类型的第一网页元素。RPA设计器判断出第一标题和第二标题为同类型的网页元素,即可通过执行上述一种网页元素的数据获取方法,获取目标网页下所有具有相似路径信息的标题类的网页数据。此外,RPA设计器还可提供配置选项,供研发人员选择从网页元素中提取的对应参数的网页数据。如图8所示,研发人员可以勾选需要提取的参数。如文字参数、链接参数。RPA设计器根据研发人员勾选的参数,提取目标元素中的网页数据。例如,研发人员勾选的配置为:抓取的是该目标元素的文字,如果该元素有href属性,可以勾选链接一并抓取。
进一步地,如果研发人员要抓取更多类型的网页数据,可以点击继续选择。目标网页中网页元素的选择参见图9和图10所示。例如第一次抓取了商品的标题类别,需要继续抓取商品价格类别。
综上,RPA设计器提供了可视化的网页数据抓取方式和抓取结果筛选,用户(例如研发人员)使用起来更加便捷高效。此外,相比传统的爬虫抓取和针对不同网页用不同的正则匹配抓取网页数据的方式,RPA设计器使用的网页元素的数据获取方法适用范围更广,并且使得网页数据的流转在RPA流程中变得高效简单。
本申请还提供一种网页元素的数据获取装置,如图11所示,该装置包括第一获取模块10、第二获取模块20、第三获取模块30以及第四获取模块40。
第一获取模块10,用于获取第一目标网页的第一网页元素路径信息。
第二获取模块20,用于当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息。
第三获取模块30,用于根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息。
第四获取模块40,用于根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
在其中一个实施例中,第一获取模块10可以包括(图11未示出):
第一生成单元,用于遍历第一目标网页的DOM树结构,根据遍历结果生成第一网页元素路径信息。
在其中一个实施例中,一种网页元素的数据获取装置还包括(图11未示出):
第二生成单元,用于根据第一网页元素在第一目标网页中的坐标值获取第一网页元素的边界值;根据边界值生成对第一网页元素的遮罩层。
第二获取模块20还包括
路径获取单元,用于根据遮罩层获取被触发的第一网页元素的路径信息。
在其中一个实施例中,一种网页元素的数据获取装置还包括(图11未示出):
第四获取模块,用于获取第一目标网页中的翻页信息。
第五获取模块,用于根据翻页信息获取第二目标网页。
第六获取模块,用于获取第二目标网页的第二网页元素路径信息。
第七获取模块,用于当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息。
第八获取模块,用于根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息。
第九获取模块,用于根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
在其中一个实施例中,第四获取模块40,还包括(图11未示出):
元素获取单元,用于根据第一相似路径信息以及第一网页元素路径信息,从第一目标网页中获取被触发的同类型的第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、同级元素和父级元素作为第一目标元素。
在其中一个实施例中,第四获取模块40,还包括(图11未示出):
数据获取单元,用于获取第一目标网页的配置信息,配置信息用于指示提取第一目标网页的网页元素中预设参数的数据;根据配置信息获取多个第一目标元素的网页数据。
在其中一个实施例中,预设参数包括文字参数和/或链接参数。数据获取单元还包括(图11未示出):
数据获取子单元,用于根据配置信息获取多个第一目标元素中的文字数据和/或链接数据,网页数据包括文字数据和链接数据。
关于网页元素的数据获取装置的具体限定可以参见上文中对于网页元素的数据获取方法的限定,在此不再赘述。上述网页元素的数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是支持RPA设计器运行的服务器,其内部结构图可以如图12所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端连接,以读取终端上的网页、网页元素以及网页数据等信息。该计算机程序被处理器执行时以实现一种网页元素的数据获取方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取第一目标网页的第一网页元素路径信息;当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息;根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
在其中一个实施例中,处理器执行计算机程序实现上述的获取第一目标网页的第一网页元素路径信息步骤时,具体实现以下步骤:遍历第一目标网页的DOM树结构,根据遍历结果生成第一网页元素路径信息。
在其中一个实施例中,处理器执行计算机程序时实现以下步骤:根据第一网页元素在第一目标网页中的坐标值获取第一网页元素的边界值;根据边界值生成对第一网页元素的遮罩层;处理器执行计算机程序实现上述的获取被触发的第一网页元素的路径信息步骤时,具体实现以下步骤:根据遮罩层获取被触发的第一网页元素的路径信息。
在其中一个实施例中,处理器执行计算机程序时实现以下步骤:获取第一目标网页中的翻页信息;根据翻页信息获取第二目标网页;获取第二目标网页的第二网页元素路径信息;当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息;根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息;根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
在其中一个实施例中,处理器执行计算机程序实现上述的根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素步骤时,具体实现以下步骤:根据第一相似路径信息以及第一网页元素路径信息,从第一目标网页中获取被触发的同类型的第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、同级元素和父级元素作为第一目标元素。
在其中一个实施例中,处理器执行计算机程序实现上述的获取多个第一目标元素的网页数据步骤时,具体实现以下步骤:获取第一目标网页的配置信息,配置信息用于指示提取第一目标网页的网页元素中预设参数的数据;根据配置信息获取多个第一目标元素的网页数据。
在其中一个实施例中,预设参数包括文字参数和/或链接参数,处理器执行计算机程序实现上述的根据配置信息获取多个第一目标元素的网页数据步骤时,具体实现以下步骤:根据配置信息获取多个第一目标元素中的文字数据和/或链接数据,网页数据包括文字数据和链接数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一目标网页的第一网页元素路径信息;当第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;根据第一网页元素的路径信息获取路径结构相似的第一相似路径信息;根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素,获取多个第一目标元素的网页数据。
在其中一个实施例中,计算机程序被处理器执行实现上述的获取第一目标网页的第一网页元素路径信息步骤时,具体实现以下步骤:遍历第一目标网页的DOM树结构,根据遍历结果生成第一网页元素路径信息。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:根据第一网页元素在第一目标网页中的坐标值获取第一网页元素的边界值;根据边界值生成对第一网页元素的遮罩层;计算机程序被处理器执行实现上述的获取被触发的第一网页元素的路径信息步骤时,具体实现以下步骤:根据遮罩层获取被触发的第一网页元素的路径信息。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:获取第一目标网页中的翻页信息;根据翻页信息获取第二目标网页;获取第二目标网页的第二网页元素路径信息;当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息;根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息;根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
在其中一个实施例中,计算机程序被处理器执行实现上述的根据第一相似路径信息以及第一网页元素路径信息确定第一目标网页中的多个第一目标元素步骤时,具体实现以下步骤:根据第一相似路径信息以及第一网页元素路径信息,从第一目标网页中获取被触发的同类型的第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、同级元素和父级元素作为第一目标元素。
在其中一个实施例中,计算机程序被处理器执行实现上述的获取多个第一目标元素的网页数据步骤时,具体实现以下步骤:获取第一目标网页的配置信息,配置信息用于指示提取第一目标网页的网页元素中预设参数的数据;根据配置信息获取多个第一目标元素的网页数据。
在其中一个实施例中,预设参数包括文字参数和/或链接参数,计算机程序被处理器执行实现上述的根据配置信息获取多个第一目标元素的网页数据步骤时,具体实现以下步骤:根据配置信息获取多个第一目标元素中的文字数据和/或链接数据,网页数据包括文字数据和链接数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种网页元素的数据获取方法,所述方法包括:
获取第一目标网页的第一网页元素路径信息;
当所述第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;
根据所述第一网页元素的路径信息获取路径结构相似的第一相似路径信息;
根据所述第一相似路径信息以及所述第一网页元素路径信息确定所述第一目标网页中的多个第一目标元素,获取所述多个第一目标元素的网页数据;
获取所述第一目标网页中的翻页信息;
根据所述翻页信息获取第二目标网页;
获取所述第二目标网页的第二网页元素路径信息;
当所述第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息;
根据所述被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息;
根据所述第二相似路径信息以及所述第二网页元素路径信息确定所述第二目标网页中的多个第二目标元素,获取所述多个第二目标元素的网页数据。
2.根据权利要求1所述的方法,其特征在于,所述获取第一目标网页的第一网页元素路径信息,包括:
遍历所述第一目标网页的DOM树结构,根据遍历结果生成所述第一网页元素路径信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一网页元素在所述第一目标网页中的坐标值获取所述第一网页元素的边界值;
根据所述边界值生成对所述第一网页元素的遮罩层;
所述获取被触发的第一网页元素的路径信息,包括:
根据所述遮罩层获取被触发的第一网页元素的路径信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似路径信息以及所述第一网页元素路径信息确定所述第一目标网页中的多个第一目标元素,包括:
根据所述第一相似路径信息以及所述第一网页元素路径信息,从所述第一目标网页中获取被触发的同类型的所述第一网页元素的同级元素和父级元素,分别将被触发的同类型的第一网页元素、所述同级元素和所述父级元素作为所述第一目标元素。
5.根据权利要求4所述的方法,其特征在于,所述获取所述多个第一目标元素的网页数据,包括:
获取所述第一目标网页的配置信息,所述配置信息用于指示提取所述第一目标网页的网页元素中预设参数的数据;
根据所述配置信息获取所述多个第一目标元素的网页数据。
6.根据权利要求5所述的方法,其特征在于,所述预设参数包括文字参数和/或链接参数,所述根据所述配置信息获取所述多个第一目标元素的网页数据,包括:
根据所述配置信息获取所述多个第一目标元素中的文字数据和/或链接数据,所述网页数据包括文字数据和链接数据。
7.一种网页元素的数据获取装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一目标网页的第一网页元素路径信息;
第二获取模块,用于当所述第一目标网页中至少两个同类型的网页元素被触发时,获取被触发的第一网页元素的路径信息;
第三获取模块,用于根据所述第一网页元素的路径信息获取路径结构相似的第一相似路径信息;
第四获取模块,用于根据所述第一相似路径信息以及所述第一网页元素路径信息确定所述第一目标网页中的多个第一目标元素,获取所述多个第一目标元素的网页数据;
第四获取模块,还用于获取第一目标网页中的翻页信息;
第五获取模块,用于根据翻页信息获取第二目标网页;
第六获取模块,用于获取第二目标网页的第二网页元素路径信息;
第七获取模块,用于当第二目标网页中至少两个同类型的网页元素被触发时,获取被触发的第二网页元素的路径信息;
第八获取模块,用于根据被触发的第二网页元素的路径信息获取路径结构相似的第二相似路径信息;
第九获取模块,用于根据第二相似路径信息以及第二网页元素路径信息确定第二目标网页中的多个第二目标元素,获取多个第二目标元素的网页数据。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201911198993.7A 2019-11-29 2019-11-29 数据获取方法、装置、计算机设备和存储介质 Active CN111090797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911198993.7A CN111090797B (zh) 2019-11-29 2019-11-29 数据获取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911198993.7A CN111090797B (zh) 2019-11-29 2019-11-29 数据获取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111090797A CN111090797A (zh) 2020-05-01
CN111090797B true CN111090797B (zh) 2023-07-25

Family

ID=70393709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911198993.7A Active CN111090797B (zh) 2019-11-29 2019-11-29 数据获取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111090797B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111638879B (zh) * 2020-05-15 2023-10-31 民生科技有限责任公司 克服像素点定位限制的***、方法、装置及可读存储介质
CN112882625B (zh) * 2021-02-10 2022-05-17 南京苏宁软件技术有限公司 元素拾取方法、装置、计算机设备和存储介质
CN113918460A (zh) * 2021-10-15 2022-01-11 京东科技信息技术有限公司 页面测试方法、装置、设备和介质
CN114528005B (zh) * 2021-11-29 2023-06-23 深圳市千源互联网科技服务有限公司 抓取标签更新方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的***及方法
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831121B (zh) * 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464905A (zh) * 2009-01-08 2009-06-24 中国科学院计算技术研究所 一种网页信息抽取的***及方法
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置

Also Published As

Publication number Publication date
CN111090797A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
US9529780B2 (en) Displaying content on a mobile device
US9330179B2 (en) Configuring web crawler to extract web page information
US7496847B2 (en) Displaying a computer resource through a preferred browser
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
US9547717B2 (en) Administration of search results
CN104536973B (zh) 图片识别的方法和浏览器客户端
CN110209966B (zh) 一种网页刷新方法、网页***及电子设备
CN105868096B (zh) 用于在浏览器中显示web页面测试结果的方法、装置及设备
CN107644100B (zh) 信息处理方法、装置以及***和计算机可读存储介质
CN107679214B (zh) 链接定位方法、装置、终端与计算机可读存储介质
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
CN108595697B (zh) 网页集成方法、装置及***
CN104866594A (zh) 信息推送方法和装置
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及***
CN103577595A (zh) 基于当前浏览页面的关键词推送方法及装置
CN110222251B (zh) 一种基于网页分割和搜索算法的服务包装方法
CN103678511A (zh) 根据可视化模板进行网页内容抽取的方法及装置
CN103544272A (zh) 一种在浏览器中显示图片的方法和装置
KR20170073693A (ko) 유사 그룹 요소 추출
CN104809173A (zh) 一种搜索结果的处理方法和装置
CN106649350B (zh) 链接元素位置信息的获取方法及装置
CN104281629A (zh) 从网页中提取图片的方法、装置及客户端设备
US20170024472A1 (en) Information retrieval method utilizing webpage visual and language features and system using thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee after: Jiangsu Suning cloud computing Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Suning Cloud Computing Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240603

Address after: Room 3104, Building A5, No. 3 Gutan Avenue, Economic Development Zone, Gaochun District, Nanjing City, Jiangsu Province, 210000

Patentee after: Jiangsu Biying Technology Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Jiangsu Suning cloud computing Co.,Ltd.

Country or region before: China