CN105677827B - 一种表单的获取方法及装置 - Google Patents

一种表单的获取方法及装置 Download PDF

Info

Publication number
CN105677827B
CN105677827B CN201610003647.9A CN201610003647A CN105677827B CN 105677827 B CN105677827 B CN 105677827B CN 201610003647 A CN201610003647 A CN 201610003647A CN 105677827 B CN105677827 B CN 105677827B
Authority
CN
China
Prior art keywords
list
dom tree
label
page
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610003647.9A
Other languages
English (en)
Other versions
CN105677827A (zh
Inventor
邓鸣捷
王晓元
马宇峰
叶峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610003647.9A priority Critical patent/CN105677827B/zh
Publication of CN105677827A publication Critical patent/CN105677827A/zh
Application granted granted Critical
Publication of CN105677827B publication Critical patent/CN105677827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种表单的获取方法及装置。一方面,本发明实施例通过获取用户访问的页面的文档对象模型DOM树;从而,根据所述DOM树的节点,确定所述页面包含的表单的边界信息;进而,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,以及,识别所述候选转化表单是否为有效转化表单。因此,本发明实施例提供的技术方案能够实现提高有效转化表单的识别率。

Description

一种表单的获取方法及装置
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种表单的获取方法及装置。
【背景技术】
目前,用户在访问网站后可以生成相应的访问记录,可以通过对访问记录的离线分析,判断用户是否访问了网站的转化页面,如用户是否访问过网站的注册、预定、购买或者咨询等页面,而且还会更进一步分析用户是否在这些转化页面提供了有效转化表单,从而能够识别出用户是否真实地转化成了指定类型的用户,如广告用户,有效转化表单可以用于为资源投放的决策提供支持。
现有技术中,识别有效转化表单的方式比较简单,是通过识别页面的文档对象模型(Document Object Model,DOM)树中的表单(form)标签来获取页面中的有效转化表单。然而,页面的规范设计中往往使用form标签来标识表单,但会存在很多不规范设置的页面,其采用的并不是form标签,如果使用form表单识别有效转化表单,不规范设置的页面中的表单将无法被识别到。因此,现有技术中有效转化表单的识别方式的识别率比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种表单的获取方法及装置,可以实现提高有效转化表单的识别率。
本发明实施例的一方面,提供一种表单的获取方法,包括:
获取用户访问的页面的文档对象模型DOM树;
根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
识别所述候选转化表单是否为有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取用户访问的页面的DOM树,包括:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点,确定所述页面包含的表单的边界信息,包括:
根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
在所述可视内容的DOM树中确定按钮标签和文本框标签;
在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,包括:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述可视内容的DOM树中确定按钮标签,包括:
利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述可视内容的DOM树中确定文本框标签,包括:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,识别所述候选转化表单是否为有效转化表单,包括:
为指定的各有效转化表单生成特征向量;
根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
比较最高的相似度与预设的置信度阈值的大小,若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述为指定的各有效转化表单生成特征向量,包括:
根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
对各表单样本的特征向量进行聚类;
获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
本发明实施例的一方面,提供一种表单的获取装置,包括:
信息获取单元,用于获取用户访问的页面的文档对象模型DOM树;
边界获取单元,用于根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
表单获取单元,用于利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
表单识别单元,用于识别所述候选转化表单是否为有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信息获取单元,具体用于:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述边界获取单元进一步包括:
节点处理模块,用于根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
标签定位模块,用于在所述可视内容的DOM树中确定按钮标签和文本框标签;
边界获取模块,用于在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述表单获取单元,具体用于:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述节点处理模块,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述节点处理模块,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述标签定位模块,具体用于:
利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述标签定位模块,具体用于:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述表单识别单元进一步包括:
向量生成模块,用于为指定的各有效转化表单生成特征向量;
相似度获取模块,用于根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
相似度比较模块,用于比较最高的相似度与预设的置信度阈值的大小;
表单识别模块,用于若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述表单识别模块,还用于若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述向量生成模块,具体用于:
根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
对各表单样本的特征向量进行聚类;
获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
根据本发明实施例提供的技术方案,能够获取用户访问过的页面的DOM树,进而利用DOM树提取候选转化表单,最后从候选转化表单中识别出所需要的有效转化表单,实现了有效转化表单的自动获取及识别。与现有技术中,仅利用form标签获取有效转化表单的方式相比,本发明实施例所提供的技术方案提供了完整的表单获取和识别方式,从而能够识别出更多的有效转化表单,提高了有效转化表单的识别率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的表单的获取方法的流程示意图;
图2是本发明实施例所提供的确定表单的边界信息的方法的流程实例图;
图3是本发明实施例所提供的识别候选转化表单是否为有效转化表单的方法的流程实例图;
图4是本发明实施例所提供的表单的获取装置的实施例一的功能方块图;
图5是本发明实施例所提供的表单的获取装置的实施例二的功能方块图;
图6是本发明实施例所提供的表单的获取装置的实施例三的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例一
本发明实施例给出一种表单的获取方法,请参考图1,其为本发明实施例所提供的表单的获取方法的流程示意图,如图所示,该方法包括以下步骤:
S101,获取用户访问的页面的文档对象模型DOM树。
S102,根据所述DOM树的节点,确定所述页面包含的表单的边界信息。
S103,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单。
S104,识别所述候选转化表单是否为有效转化表单。
实施例二
基于上述实施例一所提供的表单的获取方法,本发明实施例对S101中获取用户访问的页面的DOM树的方法进行具体描述。该步骤S101具体可以包括:
举例说明,本发明实施例中,获取用户访问的页面的DOM树的方法可以包括但不限于:首先,从用户访问日志中获取用户访问的页面的统一资源定位符(Uniform ResourceLocator,URL)。然后,根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
在一个具体的实现过程中,可以预先利用统计工具对用户访问网站的行为进行统计,生成用户访问日志,该用户访问日志可以包含用户在网站的所有访问记录。其中,每条访问记录可以包括用户访问的页面的URL、访问时间、点击的页面元素等信息,所以可以从用户访问日志中获取用户访问的页面的URL。
进一步的,根据获取的用户访问的页面的URL,可以利用爬虫工具模拟用户访问操作,对该URL对应的页面进行访问,其目的是获取页面的DOM树。
需要说明的是,访问URL对应的页面时,是向服务器发送针对该URL的HTTP请求,以使得服务器根据该HTTP请求返回该URL对应的页面数据,即页面的DOM树。然后,访问URL对应的页面的执行主体可以利用Java Script脚本对该DOM树进行解析,然后根据解析结果进行渲染,从而可以实现页面展现。可见,可以通过访问URL对应的页面,来获取用户访问的页面的DOM树。
实施例三
基于上述实施例一所提供的表单的获取方法,本发明实施例对S102中根据所述DOM树的节点,确定所述页面包含的表单的边界信息的方法进行具体描述。该步骤S102具体可以包括:
可以理解的是,目前,超文本标记语言(Hyper Text Mark-up Language,HTML)标准中,表单的标签通常使用form标签,form标签在DOM树中的节点下的所有子节点都属于表单信息。然而,也存在很多非标准化页面,这些页面的DOM树会采用div标签来作为表单的标签,因此,给识别出候选转化表单带来了困难,本实施例提供一种在DOM树中定位表单的方式,下面对这种方式进行详细描述。
本发明实施例中,在获得用户访问的页面的DOM树之后,可以在该DOM树中,确定该页面包含的表单的边界信息。
请参考图2,其为本发明实施例所提供的确定表单的边界信息的方法的流程实例图,如图所示,本发明实施例中,根据所述DOM树的节点,确定所述页面包含的表单的边界信息的方法可以包括以下步骤:
S201,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树。
具体的,现有技术中,由于服务器返回的页面的数据可能会包含用户访问时无法展现的页面内容,因此,在通过爬虫工具访问URL的页面获取到的页面的DOM树中,可能包含无法展现的页面内容的DOM树,即页面的DOM树中包括可视内容的DOM树,还可能包含非可视内容的DOM树。非可视内容的DOM树会导致有效转化表单识别的误判。本实施例中,为了去除这样的干扰和噪声,需要从DOM树中提取页面中可视内容的DOM树,去除非可视内容的DOM树,以排除非可视内容的DOM树带来的干扰。
举例说明,本发明实施例中,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树的方法可以包括但不限于以下两种方法:
第一种:根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
在一个具体的实现过程中,可以利用基于模拟浏览器的爬虫工具,在获取到访问的页面的DOM树之后,对DOM树的各节点进行遍历。对于遍历到的节点,判断该节点是否具有显示框类型属性,如display属性,若该节点具有显示框类型属性,则进一步判断该显示框类型属性的属性值。若判断出该属性值指示该节点对应的元素在页面中不显示,如display属性的属性值为“none”,则在该DOM树中删除该节点以及删除该节点的所有子节点。反之,若遍历到的节点不具有显示框类型属性,则继续遍历下一个节点,直到所有节点都遍历完毕时停止。如此,可以在DOM树中删除非可视内容的DOM树,只保留可视内容的DOM树。
第二种:根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
在一个具体的实现过程中,可以利用基于模拟浏览器的爬虫工具,在获取到访问的页面的DOM树之后,对DOM树的各节点进行遍历。对于遍历到的节点,判断该节点是否具有隐藏属性,如hidden属性,若该节点具有隐藏属性,说明该节点对应的元素在页面中不显示,则在该DOM树中删除该节点以及删除该节点的所有子节点。反之,若遍历到的节点不具有隐藏属性,则继续遍历下一个节点,直到所有节点都遍历完毕时停止。如此,可以在DOM树中删除非可视内容的DOM树,只保留可视内容的DOM树。
S202,在所述可视内容的DOM树中确定按钮标签和文本框标签。
具体的,需要说明的是,通常页面中的表单需要包括各种文本框、按钮、复选框和单选框等,其中,文本框用于输入信息,按钮用于提交表单信息,文本框和按钮是表单必须包含的两个部分,而且根据表单的结构特征,表单中文本框必须出现在按钮之前,因此,可以基于这些原理需要先确定页面中的所有按钮,即在S201中获得的可视内容的DOM树中先确定按钮标签。
举例说明,本发明实施例中,在可视内容的DOM树中确定按钮标签的方法可以包括但不限于:利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
可以理解的是,HTML标准中提供了button标签以及输入(input)标签(如inputtype=submit或者input type=button)这种标准标签来实现按钮,但是很多非标准化的页面会采用其他标签,如a标签,来实现按钮。如果在确定按钮标签时不利用非标准化按钮标签,将会遗漏部分的按钮标签,从而导致遗漏部分的表单。因此,本实施例中,除了利用button标签和input标签以外,还需要利用作为按钮的a标签,从可视内容的DOM树中确定按钮标签。
其中,作为按钮的a标签具有以下特征:
会包含图片(img)标签,作为一个图片存在;
不具有表示链接地址的超文本引用(Hypertext Reference,href)属性;
具有单击鼠标(onclick)属性。
利用上述作为按钮的a标签的特征,可以确定哪些是作为按钮的a标签,从而可以将作为按钮的a标签与作为链接的a标签进行区分,进而可以利用作为按钮的a标签在可视内容的DOM树中确定按钮标签。
进一步的,在可视内容的DOM树中确定按钮标签之后,需要在确定的按钮标签的基础上,继续在可视内容的DOM树中确定文本框按钮。
举例说明,本发明实施例中,在可视内容的DOM树中确定文本框标签的方法可以包括但不限于:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
在一个具体的实现过程中,对于确定的每个按钮标签,在按钮标签对应的节点的基础上,在可视内容的DOM树中进行递归,在按钮标签对应的节点的所有父节点下查找文本框(textbox)标签,然后找到其中与按钮标签之间距离最近的一个文本框标签,将该文本框标签作为该按钮标签对应的文本框标签,本实施例中,认为这样的文本框标签与该按钮标签可以组成一个候选转化表单。
S203,在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
具体地,在可视内容的DOM树中确定按钮标签和文本框标签之后,可以查找在可视内容的DOM树中该按钮标签和文本框标签的各公共父节点,然后在各公共父节点中获取距离按钮标签和文本框标签最近的公共父节点,将该距离按钮标签和文本框标签最近的公共父节点定义为表单的边界信息。
实施例四
基于上述实施例一所提供的表单的获取方法,本发明实施例对S103中利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单的方法进行具体描述。该步骤S103具体可以包括:
在可视内容的DOM树中确定页面包含的表单的边界信息后,可以利用该边界信息从可视内容的DOM树中提取表单信息。
举例说明,本发明实施例中,利用所述边界信息,从所述DOM树提取表单信息的方法可以包括但不限于:
由于边界信息是距离按钮标签和文本框标签最近的公共父节点,因此,可以在可视内容DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,将提取的所有子节点信息作为表单信息,该表单信息就是本发明实施例中的候选转化表单。
可以理解的是,利用该方式获得的表单信息具有以下两个特点:
1、一个按钮标签可以唯一定义一个表单信息,表单的边界信息是包含该按钮标签和与按钮标签距离最近的文本框标签的最小边界信息。
2、表单信息允许嵌套,即大表单中可以包括若干小表单。
实施例五
基于上述实施例一所提供的表单的获取方法,本发明实施例对S104中识别所述候选转化表单是否为有效转化表单的方法进行具体描述。该步骤S104具体可以包括:
本发明实施例中,利用上述方式可以从用户访问的各页面的DOM树中,分别获取候选转化表单,然后需要对获取的各候选转化表单分别进行识别,以识别出候选转化表单是否为指定的有效转化表单。
需要说明的是,可以理解的是,为了判断候选转化表单是否为指定的有效转化表单,需要先根据行业类型或者业务需求先指定有效地转化表单,然后为有效地转化表单生成特征向量。其中,候选转化表单相当于获取的所有转化表单,而根据业务需求或者行业类型的不同,所需要获取的转化表单往往是所有转化表单中的部分转化表单,本发明实施例中,将所需要的部分转化表单称为有效转化表单。
例如,对于金融行业而言,有效转化表单可以包括网站注册页、贷款申请页、产品购买页、验证页等类别的表单。其中,这些种类的表单可以单独作为一个页面出现,也可以嵌套在某页面中作为该页面的一部分出现。
请参考图3,其为本发明实施例所提供的识别候选转化表单是否为有效转化表单的方法的流程实例图,如图所示,本发明实施例中,识别候选转化表单是否为有效转化表单的方法可以包括以下步骤:
S301,为指定的各有效转化表单生成特征向量。
具体的,举例说明,本发明实施例中,为指定的各有效转化表单生成特征向量的方法可以包括但不限于:
首先,根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量。然后,对各表单样本的特征向量进行聚类。接着,获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;以及,利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别。最后,根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
在一个具体的实现过程中,可以配置若干表单样本,然后对于每个表单样本分别提取对应的DOM树中标签的类别和标签的说明信息,如标签的类别是文本框,标签的说明信息是用户名。然后利用该表单样本对应的DOM树中提取的标签的类别和标签的说明信息,构成表单样本的特征向量。其中,每个表单样本中可以提取出一个或者两个以上的特征向量。
进一步的,可以利用基于密度的聚类算法,将密度较大的特征向量汇聚到同一类别中,然后统计每个类别中特征向量的出现次数,并提取出现次数最多的至少一个特征向量,将出现次数最多的至少一个特征向量作为该类别的中心特征。另外,在聚类完毕后,相关性较低的一些噪声表单将被去除,或者,利用被误识别的作为链接的a标签获取的表单也将被去除。
在一个具体的实现过程中,可以利用黑名单,在聚类获得的各类别中删除属于黑名单中的类别,从而实现删除不属于有效转化表单的类别。可以理解的是,可以认为除黑名单中定义的类别以外的其他类别是指定的有效转化表单,因此,可以利用黑名单来实现有效转化表单的指定,同理,删除属于黑名单中的表单相当于删除不属于有效转化表单的类别,这样,就实现了自动筛选出有效转化表单的类别。例如,黑名单中可以包括常规的非转化业务的表单,如登录表单、评论表单等。
可以理解的是,对于为各有效转化表单生成的特征向量,可以进行存储,然后当获得候选转化表单后,可以利用为各有效转化表单生成的特征向量,进行候选转化表单是否为有效转化表单的识别操作。
S302,根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度。
具体的,在生成各有效转化表单的特征向量之后,对于获得的各候选转化表单中的每个候选转化表单,可以根据该候选转化表单的特征向量和各有效转化表单的特征向量,分别计算该候选转化表单的特征向量与每个有效转化表单的特征向量的相似度,以作为该候选转化表单与每个有效转化表单的相似度。
进一步的,按照相似度由高到低的顺序对各相似度进行排序,以获得排序结果,从排序结果中获取排序最高的相似度,即获取数值最高的相似度。
S303,比较最高的相似度与预设的置信度阈值的大小,若所述最高的相似度大于或者等于所述置信度阈值,执行步骤S304,反之,若所述最高的相似度小于所述置信度阈值,执行步骤S305。
S304,确定所述候选转化表单为有效转化表单。
S305,确定所述候选转化表单不是有效转化表单。
这样,就可以从候选转化表单中识别出有效转化表单,实现有效转化表单的获取与识别。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图4,其为本发明实施例所提供的表单的获取装置的实施例一的功能方块图。如图所示,该装置包括:
信息获取单元41,用于获取用户访问的页面的文档对象模型DOM树;
边界获取单元42,用于根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
表单获取单元43,用于利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
表单识别单元44,用于识别所述候选转化表单是否为有效转化表单。
在一个具体的实现过程中,所述信息获取单元41,具体用于:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
请参考图5,其为本发明实施例所提供的表单的获取装置的实施例二的功能方块图,如图所示,所述边界获取单元42进一步包括:
节点处理模块421,用于根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
标签定位模块422,用于在所述可视内容的DOM树中确定按钮标签和文本框标签;
边界获取模块423,用于在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
在一个具体的实现过程中,所述表单获取单元43,具体用于:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
在一个具体的实现过程中,所述节点处理模块421,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
在一个具体的实现过程中,所述节点处理模块421,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
在一个具体的实现过程中,所述标签定位模块422,具体用于:
利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
在一个具体的实现过程中,所述标签定位模块422,具体用于:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
请参考图6,其为本发明实施例所提供的表单的获取装置的实施例三的功能方块图,如图所示,所述表单识别单元44进一步包括:
向量生成模块441,用于为指定的各有效转化表单生成特征向量;
相似度获取模块442,用于根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
相似度比较模块443,用于比较最高的相似度与预设的置信度阈值的大小;
表单识别模块444,用于若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
在一个具体的实现过程中,所述表单识别模块444,还用于若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
在一个具体的实现过程中,所述向量生成模块441,具体用于:
根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
对各表单样本的特征向量进行聚类;
获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
由于上述实施例中的各单元能够执行图1~图3所示的方法,本实施例未详细描述的部分,可参考对图1~图3的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,通过获取用户访问的页面的文档对象模型DOM树;从而,根据所述DOM树的节点,确定所述页面包含的表单的边界信息;进而,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,以及,识别所述候选转化表单是否为有效转化表单。
根据本发明实施例提供的技术方案,能够获取用户访问过的页面的DOM树,进而利用DOM树提取候选转化表单,最后从候选转化表单中识别出所需要的有效转化表单,实现了有效转化表单的自动获取及识别。与现有技术中,仅利用form标签获取有效转化表单的方式相比,本发明实施例所提供的技术方案提供了完整的表单获取和识别方式,从而能够识别出更多的有效转化表单,提高了有效转化表单的识别率。
现有技术中,对于向用户提供的推广信息,目前只能获取到用户是否点击了该推广信息,并无法获取到用户点击推广信息后的行为,以及用户是否真正转化为了指定类型的用户。如果利用本发明实施例提供的技术方案,能够通过获取到的有效转化表单,来获取到用户在进入推广信息的页面后所发生的行为,如是否访问了有效转化页面、是否发生了基于按钮的表单提交事件等。基于获取的有效转化表单可以进一步计算用户的转化率,发现哪些推广信息的用户的转化率比较高,依据转化率进行推广资源投放的优化。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种表单的获取方法,其特征在于,所述方法包括:
获取用户访问的页面的文档对象模型DOM树;
根据所述DOM树的节点,确定所述页面包含的表单的边界信息,包括:
根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
在所述可视内容的DOM树中确定按钮标签和文本框标签;
在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息;
利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
识别所述候选转化表单是否为有效转化表单。
2.根据权利要求1所述的方法,其特征在于,所述获取用户访问的页面的DOM树,包括:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
3.根据权利要求1所述的方法,其特征在于,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,包括:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
4.根据权利要求1所述的方法,其特征在于,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
5.根据权利要求1或4所述的方法,其特征在于,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
6.根据权利要求1所述的方法,其特征在于,在所述可视内容的DOM树中确定按钮标签,包括:
利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
7.根据权利要求1或6所述的方法,其特征在于,在所述可视内容的DOM树中确定文本框标签,包括:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
8.根据权利要求1所述的方法,其特征在于,识别所述候选转化表单是否为有效转化表单,包括:
为指定的各有效转化表单生成特征向量;
根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
比较最高的相似度与预设的置信度阈值的大小,若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
10.根据权利要求8所述的方法,其特征在于,所述为指定的各有效转化表单生成特征向量,包括:
根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
对各表单样本的特征向量进行聚类;
获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
11.一种表单的获取装置,其特征在于,所述装置包括:
信息获取单元,用于获取用户访问的页面的文档对象模型DOM树;
边界获取单元,用于根据所述DOM树的节点,确定所述页面包含的表单的边界信息,
所述边界获取单元进一步包括:
节点处理模块,用于根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
标签定位模块,用于在所述可视内容的DOM树中确定按钮标签和文本框标签;
边界获取模块,用于在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息;
表单获取单元,用于利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
表单识别单元,用于识别所述候选转化表单是否为有效转化表单。
12.根据权利要求11所述的装置,其特征在于,所述信息获取单元,具体用于:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
13.根据权利要求11所述的装置,其特征在于,所述表单获取单元,具体用于:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
14.根据权利要求11所述的装置,其特征在于,所述节点处理模块,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
15.根据权利要求11或14所述的装置,其特征在于,所述节点处理模块,具体用于:
根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
16.根据权利要求11所述的装置,其特征在于,所述标签定位模块,具体用于:
利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
17.根据权利要求11或16所述的装置,其特征在于,所述标签定位模块,具体用于:
在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
18.根据权利要求11所述的装置,其特征在于,所述表单识别单元进一步包括:
向量生成模块,用于为指定的各有效转化表单生成特征向量;
相似度获取模块,用于根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
相似度比较模块,用于比较最高的相似度与预设的置信度阈值的大小;
表单识别模块,用于若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
19.根据权利要求18所述的装置,其特征在于,所述表单识别模块,还用于若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
20.根据权利要求18所述的装置,其特征在于,所述向量生成模块,具体用于:
根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
对各表单样本的特征向量进行聚类;
获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
CN201610003647.9A 2016-01-04 2016-01-04 一种表单的获取方法及装置 Active CN105677827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610003647.9A CN105677827B (zh) 2016-01-04 2016-01-04 一种表单的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610003647.9A CN105677827B (zh) 2016-01-04 2016-01-04 一种表单的获取方法及装置

Publications (2)

Publication Number Publication Date
CN105677827A CN105677827A (zh) 2016-06-15
CN105677827B true CN105677827B (zh) 2019-03-29

Family

ID=56190390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610003647.9A Active CN105677827B (zh) 2016-01-04 2016-01-04 一种表单的获取方法及装置

Country Status (1)

Country Link
CN (1) CN105677827B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664461B (zh) * 2018-05-03 2023-08-22 鼎富智能科技有限公司 一种网页表单自动填写方法及装置
CN111723318B (zh) * 2020-06-09 2023-09-01 百度在线网络技术(北京)有限公司 页面数据处理方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN103377231A (zh) * 2012-04-25 2013-10-30 腾讯科技(北京)有限公司 一种数据分析方法、装置及***
CN103440239A (zh) * 2013-05-14 2013-12-11 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN104636949A (zh) * 2013-11-15 2015-05-20 智泓科技股份有限公司 基于行动广告的简讯回馈方法及其***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050251444A1 (en) * 2004-05-10 2005-11-10 Hal Varian Facilitating the serving of ads having different treatments and/or characteristics, such as text ads and image ads
EP2156389A4 (en) * 2007-05-04 2011-02-02 Google Inc METRIC IMPLEMENTATION FOR ONLINE ADVERTISING

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN103377231A (zh) * 2012-04-25 2013-10-30 腾讯科技(北京)有限公司 一种数据分析方法、装置及***
CN103440239A (zh) * 2013-05-14 2013-12-11 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN104636949A (zh) * 2013-11-15 2015-05-20 智泓科技股份有限公司 基于行动广告的简讯回馈方法及其***

Also Published As

Publication number Publication date
CN105677827A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
CN107204960B (zh) 网页识别方法及装置、服务器
US20150067476A1 (en) Title and body extraction from web page
CN107798001B (zh) 网页处理方法、装置及设备
CN106776567B (zh) 一种互联网大数据分析提取方法及***
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及***
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
US10452730B2 (en) Methods for analyzing web sites using web services and devices thereof
CN111079043A (zh) 一种关键内容定位方法
CN107273546B (zh) 仿冒应用检测方法以及***
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
EP2707808A2 (en) Exploiting query click logs for domain detection in spoken language understanding
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110147223B (zh) 组件库的生成方法、装置及设备
CN105677827B (zh) 一种表单的获取方法及装置
CN117546160A (zh) 使用机器学习模型的自动化数据层次结构提取和预测
CN111209325A (zh) 业务***接口识别方法、装置及存储介质
CN104881446A (zh) 搜索方法及装置
CN108959289B (zh) 网站类别获取方法和装置
CN105893584A (zh) 一种显示收藏夹网址标签的方法、客户端和***
CN111125605B (zh) 页面元素获取方法和装置
CN112416800A (zh) 智能合约的测试方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant