CN105718559B - 查找表单页面和目标页面转化关系的方法和装置 - Google Patents

查找表单页面和目标页面转化关系的方法和装置 Download PDF

Info

Publication number
CN105718559B
CN105718559B CN201610037371.6A CN201610037371A CN105718559B CN 105718559 B CN105718559 B CN 105718559B CN 201610037371 A CN201610037371 A CN 201610037371A CN 105718559 B CN105718559 B CN 105718559B
Authority
CN
China
Prior art keywords
url
page
pages
redirected
form page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610037371.6A
Other languages
English (en)
Other versions
CN105718559A (zh
Inventor
王晓元
马宇峰
邓鸣捷
叶峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610037371.6A priority Critical patent/CN105718559B/zh
Priority to PCT/CN2016/086408 priority patent/WO2017124692A1/zh
Publication of CN105718559A publication Critical patent/CN105718559A/zh
Application granted granted Critical
Publication of CN105718559B publication Critical patent/CN105718559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种查找表单页面和目标页面转化关系的方法和装置。所述方法的一具体实施方式包括:对页面访问日志进行解析,分解出所有被访问页面的URL和跳转URL组;对所有URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;根据第一个URL属于表单页面URL集合的跳转URL组生成表单页跳转对集合;从表单页跳转对集合中筛除符合预设条件的表单页跳转对;将表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL;对各个目标页面URL,将其对应的经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。该实施方式可以提高查找表单页面和目标页面转化关系的准确性。

Description

查找表单页面和目标页面转化关系的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及查找表单页面和目标页面转化关系的方法和装置。
背景技术
在互联网领域,往往通过“转化”来描述从一个页面到另一个页面的跳转行为,例如,在电商领域,如果用户从商户的推广页面进入商户希望访客在网站上打开的页面(也称为目标页面,如进行注册、下订单、付款等所需访问的页面),就是一次“转化”。表单转化,是通过网页中主要负责数据采集功能的表单来实现的转化,转化通常发生在用户的输入操作或点击操作之后。现有的表单转化页面捕捉方法中,往往通过对用户打开的表单页或转化成功的目标页面进行单页面统计,来确定表单转化行为是否发生。这种表单转化的判断方法,往往只是孤立的反映出页面浏览量,无法表现出真实转化行为(比如容易被作弊),而且由于转化成功的目标页面的形式多种多样(比如提示注册成功,注册到达下一步骤,甚至是服务器无法提供正常信息时显示的错误页面等),单页面访问模式难以准确判断表单转化行为。现有技术存在的缺陷是:通过单一页面判断表单页面转化,没有考虑页面之间的相互联系,从而导致确定表单转化行为的准确度不高。
发明内容
本申请的目的在于提出一种改进的查找表单页面和目标页面转化关系的方法和装置,来解决以上背景技术部分提到的技术问题。
一方面,本申请提供了一种查找表单页面和目标页面转化关系的方法,所述方法包括:对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个所述跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;根据所述第一个URL属于所述表单页面URL集合的跳转URL组生成表单页跳转对集合;从所述表单页跳转对集合中筛除符合预设条件的表单页跳转对;将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,所述目标页面URL为泛化后的第二个URL;对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
在一些实施例中,所述跳转URL组通过以下方法获得:获取每个被访问页面URL的访问请求信息;从所述访问请求信息中获取链接到当前页面URL的链接页面URL;将所述链接页面URL和所述当前页面URL生成一个跳转URL组,其中,所述链接页面URL为第一个URL,所述当前页面URL为第二个URL。
在一些实施例中,将满足下列条件之一的页面URL筛选出来加入表单页面URL集合:所述页面URL与预设的URL模式相匹配;所述页面URL对应的页面内容包含预设的关键字。
在一些实施例中,所述从所述表单页跳转对集合中筛除符合预设条件的表单页跳转对包括:获取所述表单页跳转对集合中各个表单页跳转对的第一个URL的标准对象模型;对所述标准对象模型进行解析,如果所述标准对象模型的属性字段中包括超链接属性字段,将所述表单页跳转对确定为符合预设条件的表单页跳转对并筛除。
在一些实施例中,所述将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL包括:将表单页跳转对集合中剩余各个表单页跳转对中的URL进行去参数处理;对进行去参数处理后的各个表单页跳转对,合并相同的第二个URL作为所述目标页面URL。
第二方面,本申请提供了一种查找表单页面和目标页面转化关系的装置,所述装置包括:分解模块,配置用于对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个所述跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;第一筛选模块,配置用于对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;生成模块,配置用于根据所述第一个URL属于所述表单页面URL集合的跳转URL组生成表单页跳转对集合;第二筛选模块,配置用于从所述表单页跳转对集合中筛除符合预设条件的表单页跳转对;第一确定模块,配置用于将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,所述目标页面URL为泛化后的第二个URL;第二确定模块,配置用于对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
在一些实施例中,所述分解模块包括用于获得所述跳转URL组的下列单元:访问请求信息获取单元,配置用于获取每个被访问页面URL的访问请求信息;链接页面URL获取单元,配置用于从所述访问请求信息中获取链接到当前页面URL的链接页面URL;生成单元,配置用于将所述链接页面URL和所述当前页面URL生成一个跳转URL组,其中,所述链接页面URL为第一个URL,所述当前页面URL为第二个URL。
在一些实施例中,将满足下列条件之一的页面URL筛选出来加入表单页面URL集合:所述页面URL与预设的URL模式相匹配;所述页面URL对应的页面内容包含预设的关键字。
在一些实施例中,所述第二筛选模块包括:标准对象模型获取单元,配置用于获取所述表单页跳转对集合中各个表单页跳转对的第一个URL的标准对象模型;确定及筛除单元,配置用于对所述标准对象模型进行解析,如果所述标准对象模型的属性字段中包括超链接属性字段,将所述表单页跳转对确定为符合预设条件的表单页跳转对并筛除。
在一些实施例中,所述第一确定模块包括:处理单元,配置用于将表单页跳转对集合中剩余各个表单页跳转对中的URL进行去参数处理;合并单元,配置用于对进行去参数处理后的各个表单页跳转对,合并相同的第二个URL作为所述目标页面URL。
本申请提供的查找表单页面和目标页面转化关系的方法和装置,通过对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个跳转URL组包括两个URL,且第二个URL对应的页面是由第一个URL对应的页面直接跳转而来的,接着对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合,然后根据第一个URL属于表单页面URL集合的跳转URL组生成表单页跳转对集合,接着从表单页跳转对集合中筛除符合预设条件的表单页跳转对,将剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,目标页面URL为泛化后的第二个URL,接着对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为跳转到该目标页面URL的表单页面URL,由此,确定出了至少一个跳转到目标页面URL的表单页面URL。由于充分考虑了页面之间的跳转关系,这种查找表单页面和目标页面转化关系的方法和装置提高了确定表单转化行为的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性***架构;
图2是根据本申请的查找表单页面和目标页面转化关系的方法的一个实施例的流程图;
图3是页面文档的DOM树结构的示意图;
图4a、图4b是根据本申请的查找表单页面和目标页面转化关系的方法的一个应用场景的示意图;
图5是根据本申请的查找表单页面和目标页面转化关系的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102可以通过网络103与服务器104交互,以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用,例如浏览器应用、搜索类应用、理财类应用、购物类应用、地图类应用、社交平台应用、邮箱客户端、即时通信工具等等。
终端设备101、102可以是支持浏览器应用等安装于其上的各种电子设备,包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器104可以是提供各种服务的服务器。例如服务器104可以是对终端设备101、102的浏览器应用等提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的查找表单页面和目标页面转化关系的方法一般通过服务器104执行,但不排除可以通过终端设备101、102执行。相应地,本申请实施例所提供的查找表单页面和目标页面转化关系的装置一般设于服务器104中,但不排除可以设于终端设备101、102中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,其示出了查找表单页面和目标页面转化关系的方法的一个实施例的流程200。本实施例主要以该方法应用于有一定运算能力的电子设备中来举例说明,该电子设备例如可以是图1示出的服务器104。该查找表单页面和目标页面转化关系的方法,包括以下步骤:
步骤201,对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组。
在本实施例中,电子设备可以对页面访问日志进行解析,分解出所有被访问页面的URL(Uniform Resource Locator,统一资源定位符),并根据页面之间的跳转关系分解出多个跳转URL组。其中,统一资源定位符URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,互联网中的每个文件都有一个唯一的URL,例如,每个页面资源都对应一个URL。
对于终端设备上运行的各种应用而言,往往包括多个页面,其所运行的终端设备或为其提供支持的后台服务器可以根据其产生的页面访问记录生成页面访问日志。应用所运行的终端设备生成的页面访问日志可以包括应用通过终端设备所访问过的页面、访问时间等信息;为应用提供支持的后台服务器生成的页面访问日志可以包括应用通过各终端设备所访问过的页面、访问时间等信息,也可以包括后台服务器接收到的应用通过各终端设备发送的页面请求信息、后台服务器向各终端设备提供相关页面显示的响应信息、应用的一次访问产生的页面访问序列(如页面A到页面B到页面C)等等。其中,上述应用例如可以是浏览器应用或可进行信息推送的其他应用(例如“支付宝”)等。电子设备可以从本地或远程地获取上述页面访问日志。具体地,当上述电子设备是为上述应用提供支持的后台服务器时,其可以直接从本地获取上述页面访问日志;否则,其可以通过有线连接方式或者无线连接方式从上述后台服务器获取上述页面访问日志。上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
这里,每个跳转URL组可以包括两个URL,例如跳转URL组i记为<URLi1,URLi2>,其中,URLi1、URLi2分别为跳转URL组i的第一个URL、第二个URL。URLi2对应的页面可以由URLi1对应的页面直接跳转而来。电子设备可以根据页面访问日志中的页面访问次序,依次分解出各个页面对应的URL,并将相邻两个被访问页面对应的URL确定为一个URL组。例如,对于页面访问日志中应用的一次访问产生的页面访问序列“页面A到页面B到页面C”,电子设备可以分解出页面A对应的URL“URLA”、页面B对应的URL“URLB”、页面C对应的URL“URLC”,以及跳转URL组“<URLA,URLB>”和“<URLB,URLC>”。
在本实施例的一些可选实现方式中,电子设备可以通过以下方式获得跳转URL组:首先,获取每个被访问页面URL的访问请求信息;接着,从访问请求信息中获取链接到当前页面URL的链接页面URL;然后,将链接页面URL和当前页面URL作为一个跳转URL组,其中,链接页面URL为第一个URL,当前页面URL为第二个URL。可以理解,用户通过互联网访问每个页面时,用户所使用的终端设备可以先向后台服务器发送页面请求信息,后台服务器根据对页面请求信息的解析,向终端设备提供相关页面资源。相应地,每个被访问页面的URL都可以对应一个页面请求信息。该页面请求信息可以包括所要访问的页面、页面的处理方式、访问路径等信息,这些信息可以包括在页面访问请求的头文件中。例如,当浏览器向网页服务器发送页面访问请求的时候,页面访问请求的头文件里往往会包括Referer(访问来源)信息,即,是页面访问请求所请求的页面从哪个页面链接过来的。这里,页面访问请求所请求的页面为当前页面,所连接过来的页面为链接页面。电子设备可以获取该来源信息,从而获得当前页面URL和链接页面URL。
步骤202,对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合。
在本实施例中,电子设备可以对步骤201中分解出的单个被访问页面的URL模式或页面内容进行分析,从而筛选出包含表单的页面的URL,加入表单页面URL集合。
表单在页面中可以负责数据采集功能。一般而言,一个表单可以包括表单标签、表单域和表单按钮,其中:表单标签用于申明表单,可以包含处理表单数据所用通用网关接口的URL以及数据提交到服务器的方法;表单域可以包括文本框、密码框、隐藏域、多行文本框、复选框、单选框、下拉选择框和文件上传框等中的一项或多项;表单按钮可以包括提交按钮、复位按钮和自定义按钮等,用于将数据传送到服务器通用网关接口脚本或者取消输入,还可以用表单按钮来控制其他定义了处理脚本的处理工作。页面中的表单可以通过表单标签来定义,例如用于创建HTML(HyperText Markup Language,超文本标记语言)表单的“<form>”标签等等。包含表单的页面也可以在页面的URL模式中体现,例如一个包含表单的页面在表单提交时会生成一个表单提交URL,该表单提交URL可能会包含表单提交的方式(如“POST”)。
由此,电子设备可以通过采用诸如将页面的内容与预设关键字(如“<form>”标签关键字等)匹配、将URL与预设模式(如表单提交URL包含表单提交方式“POST”)匹配之类的分析方法确定页面是否为包含表单的页面,在此不再赘述。电子设备可以将筛选出的包含表单的页面的URL加入表单页面URL集合。
步骤203,根据第一个URL属于表单页面URL集合的跳转URL组生成表单页跳转对集合。
在本实施例中,电子设备可以将各个跳转URL组中的第一个URL与表单页面URL集合中的URL进行匹配,如果匹配到相一致的URL,则确定跳转URL组中的第一个URL对应的页面为包含表单的页面,从而进一步确定相应的跳转URL组中的两个URL对应的页面可能为发生转化中的表单页面和目标页面,进而,电子设备可以根据在跳转URL组中匹配到的所有跳转URL组,生成表单页跳转对集合。这里,表单页跳转对表示一对URL中,第二个URL对应的页面由第一个URL对应的表单页面跳转而来。
步骤204,从表单页跳转对集合中筛除符合预设条件的表单页跳转对。
在本实施例中,电子设备可以进一步根据预设条件对表单页跳转对集合中的表单页跳转对进行筛选,以筛除可能不是由表单页面的表单提交完成的向目标页面的页面跳转。
本领域技术人员可以理解,包含表单的页面同时也可能包含其他页面内容,如超链接等。此时,虽然表单页跳转对中的两个URL,分别对应包含表单的页面,和包含表单的页面直接跳转到的页面,但这里的跳转不一定是对包含表单的页面中的表单提交操作引起的,还可能是其他操作,如对超链接的点击等操作引起的,这种跳转与表单页面和目标页面的转化无关。因此,在本实施例中排除不是对包含表单的页面中的表单提交操作引起的跳转,从而准确确定出对包含表单的页面中的表单提交操作引起页面跳转的表单页跳转对。
在本实施例的一些可选实现方式中,电子设备可以通过以下方法对表单页跳转对集合中的表单页跳转对进行筛选:
首先,电子设备可以获取表单页跳转对集合中各个表单页跳转对的第一个URL对应页面的文档对象模型(Document Object Model,DOM)。其中,文档对象模型DOM可以定义访问和操作上述页面对应的文档(如超文本标记语言HTML文档、可扩展标记语言XML文档等)的标准方法,并将文档呈现为带有元素、属性和文本的树结构(如节点树),来表示文档的逻辑结构,以及应用访问和处理文档的方法,如图3所示,是一个DOM树结构的示例,图3的DOM树结构中,节点301处的元素1,其属性如节点302所示,为超链接;
然后,电子设备可以对上述文档对象模型进行解析,如果标准对象模型的属性字段中包含超链接属性字段(如HTML超链接“HTML href”和脚本语言超链接“Javascripthref”等),将表单页跳转对确定为符合预设条件的表单页跳转对并筛除。其中,页面的超链接属性字段可以包括但不限于以下至少一项:HTML超链接“HTML href”属性字段“<a href=‘xxx’></a>”(可以用于指定超链接目标的URL)、“Javascript href”属性字段“window.location.href”(用于表示超链接所指的URL页面)、“Javascript href”属性字段“window.history.back”(用于表示页面是由其他页面后退返回的前一页面)、“Javascripthref”属性字段“window.navigate”(用于表示从其他页面跳转到的参数指定页面)、“Javascript href”属性字段“self.location”(用于表示由当前页面打开超链接所指的超链接对应的页面)、“Javascript href”属性字段“top.location”(用于表示从顶层页面打开超链接所指的页面)等等。
步骤205,将表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL。
在本实施例中,电子设备可以接着将表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化处理,并根据泛化后的URL确定目标页面URL。其中,目标页面URL为表单页跳转对中泛化后的第二个URL。
URL的一般语法格式为(带方括号[]的为可选项):
protocol://hostname[:port]/path/[;parameters][?query]#fragment;
其中,protocol表示指定的传输协议,hostname表示存放页面资源的服务器的域名***(Domain Name System,DNS)主机名或IP(Internet Protocol,网络间的互联协议)地址,port表示主机中存放资源的服务端口号,path表示主机上的一个目录或文件地址,parameters表示指定的特殊参数,query表示网页的传递参数,如果有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开,fragment代表字符串,用于指定页面资源中的片断。例如,URL“http://www.yydd.com/landingpage/3gsem/message.html?u=137****5423”中,指定的传输协议为“http”,存放页面资源的服务器的域名***为“www.yydd.com”,主机上的文件地址为“landingpage/3gsem/message.html”,网页的传递参数为“u=137****5423”。
对URL的泛化处理,可以是将URL中的可选项去除从而变换成标准格式的URL的过程,例如:将如下URL
“http://www.yydd.com/landingpage/3gsem/message.html?u=137****5423”去除可选项网页的传递参数项后变换为
“http://www.yydd.com/landingpage/3gsem/message.html”。
在实践中,同一个页面由于向其跳转的页面等因素的不同,URL中的可选项(例如网页的传递参数项等)可能会有所区别。本实施例中电子设备对URL的泛化处理,可以去除URL中的干扰项,从而有利于准确确定包含表单的页面是否向目标页面发生转化。
在这里,目标页面可以是电子设备预先设定的,也可以是电子设备通过泛化后的各表单页跳转对中泛化后的第二个URL对比确定。例如,在一些实现中,电子设备可以通过预设目标页面URL集合,并将各表单页跳转对中泛化后的第二个URL与预设的目标页面URL集合进行匹配来确定,将如果在预设的目标页面URL集合中匹配到泛化后的第二个URL,则可以据此确定该第二个URL为目标页面URL,结合步骤203,相应表单页跳转对中的两个URL对应的页面分别是表单页面和目标页面,该表单页跳转对可以代表一次表单页面向目标页面发生的转化。在另一些实现中,电子设备还可以将表单页跳转对集合中剩余各个表单页跳转对中的URL进行去参数处理(例如去除所有参数项),然后对进行去参数处理后的各个表单页跳转对,合并相同的第二个URL作为目标页面URL,对应的页面为目标页面。
步骤206,对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
在本实施例中,电子设备可以对步骤205中确定的各个目标页面URL,从经过步骤204的筛选之后的表单页跳转对集合中查找其所在的至少一个表单页跳转对,并将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
经过该步骤,电子设备可以建立表单页面URL与目标页面URL的映射关系。每个目标页面URL可能对应一个或多个表单页面URL。同时,由于经过泛化后的第一个URL可能存在重复,从而可以对表单页面URL进行合并、统计等处理,以用于计算表单页面和目标页面转化率等。
参考图4a、4b,作为一个应用场景,图4a、4b给出了本实施例的查找表单页面和目标页面转化关系的方法应用于网页广告信息推广网站的后台服务器,或者广告投放者的分析***等,其可以进行网页广告中的页面转化关系确定,并可进一步用于进行不同表单页面到目标页面的转化率计算等。其中,在图4a中,给出了表单页面401向目标页面402转化的示意;在图4b中,给出了表单页面403向目标页面404转化的示意。图4a和图4b中给出了两种不同的目标页面,目标页面402是表单页面401进行表单提交操作后跳转到的操作成功的页面,目标页面404是表单页面403进行表单提交操作后跳转到的另一个表单页面。
在如4a、4b示出的应用场景中,用户可以通过终端设备所运行的浏览器应用打开各种页面,例如表单页面401、表单页面403等。本实施例的方法所适用的电子设备可以从为浏览器应用提供支持的后台服务器获取浏览器的页面访问日志,并对页面访问日志进行解析,分解出所有被访问页面的URL和跳转URL组,其中,每个跳转URL组可以包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来。接着,上述电子设备可以对所有被访问页面的URL进行筛选,将包含表单的页面的URL(如表单页面401、表单页面403的URL)加入表单页面URL集合。然后,电子设备可以将跳转URL组中的第一个URL与表单页面URL集合进行匹配,如果在表单页面URL集合中匹配到至少一个跳转URL组中的第一个URL,将这些跳转URL组生成表单页跳转对集合。接着,电子设备可以从表单页跳转对集合中筛除符合预设条件(如第一个URL对应的页面中包含超链接等)的表单页跳转对。然后,电子设备可以将表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,从泛化后的第二个URL中确定出目标页面URL(如目标页面402、目标页面404等)。接着,电子设备可以针对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。可选地,电子设备可以根据所确定的表单页面URL与目标页面URL建立映射关系,并可进一步计算各表单页面到目标页面的转化率。这里,转化率可以是表单页面向目标页面跳转的概率,其可以通过诸如表单页面a向目标页面b转化的次数除以表单页面a被打开的次数等公知的计算方法进行计算,在此不再赘述。进一步地,在该应用场景中,电子设备可以计算包括同一广告信息投放者分别通过表单页面A和表单页面B的投放的广告,其分别向目标页面C转化的转化率,给广告信息投放者的广告投放提供参考。
本申请的上述实施例充分考虑页面之间的联系,提高了查找表单页面和目标页面转化关系的准确性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种查找表单页面和目标页面转化关系的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于电子设备中。
如图5所示,本实施例所述的查找表单页面和目标页面转化关系的装置500包括:分解模块501、第一筛选模块502、生成模块503、第二筛选模块504、第一确定模块505及第二确定模块506。其中,分解模块501可以配置用于对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;第一筛选模块502可以配置用于对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;生成模块503可以配置用于根据第一个URL属于表单页面URL集合的跳转URL组生成表单页跳转对集合;第二筛选模块504可以配置用于从表单页跳转对集合中筛除符合预设条件的表单页跳转对;第一确定模块505可以配置用于将表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,目标页面URL为泛化后的第二个URL;第二确定模块506可以配置用于对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
值得说明的是,查找表单页面和目标页面转化关系的装置500中记载的诸模块或单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于查找表单页面和目标页面转化关系的装置500及其中包含的模块或单元,在此不再赘述。
本领域技术人员可以理解,上述查找表单页面和目标页面转化关系的装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机***600的结构示意图。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分解模块、第一筛选模块、生成模块、第二筛选模块、第一确定模块及第二确定模块。其中这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分解模块还可以被描述为“配置用于对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,当所述程序被一个或者一个以上的处理器执行时,使得所述设备:对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个所述跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;根据所述第一个URL属于所述表单页面URL集合的跳转URL组生成表单页跳转对集合;从所述表单页跳转对集合中筛除符合预设条件的表单页跳转对;将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,所述目标页面URL为泛化后的第二个URL;对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种查找表单页面和目标页面转化关系的方法,所述方法包括:
对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个所述跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;
对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;
根据所述第一个URL属于所述表单页面URL集合的跳转URL组生成表单页跳转对集合;
获取所述表单页跳转对集合中各个表单页跳转对的第一个URL的标准对象模型;
对所述标准对象模型进行解析,如果所述标准对象模型的属性字段中包括超链接属性字段,将所述表单页跳转对确定为符合预设条件的表单页跳转对并筛除;
将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,所述目标页面URL为泛化后的第二个URL;
对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
2.根据权利要求1所述的方法,其特征在于,所述跳转URL组通过以下方法获得:
获取每个被访问页面URL的访问请求信息;
从所述访问请求信息中获取链接到当前页面URL的链接页面URL;
将所述链接页面URL和所述当前页面URL生成一个跳转URL组,其中,所述链接页面URL为第一个URL,所述当前页面URL为第二个URL。
3.根据权利要求1所述的方法,其特征在于,将满足下列条件之一的页面URL筛选出来加入表单页面URL集合:
所述页面URL与预设的URL模式相匹配;
所述页面URL对应的页面内容包含预设的关键字。
4.根据权利要求1所述的方法,其特征在于,所述将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL包括:
将表单页跳转对集合中剩余各个表单页跳转对中的URL进行去参数处理;
对进行去参数处理后的各个表单页跳转对,合并相同的第二个URL作为所述目标页面URL。
5.一种查找表单页面和目标页面转化关系的装置,所述装置包括:
分解模块,配置用于对页面访问日志进行解析,分解出所有被访问页面的统一资源定位符URL和跳转URL组,其中,每个所述跳转URL组包括两个URL,且第二个URL对应的页面由第一个URL对应的页面直接跳转而来;
第一筛选模块,配置用于对所有被访问页面的URL进行筛选,将包含表单的页面的URL加入表单页面URL集合;
生成模块,配置用于根据所述第一个URL属于所述表单页面URL集合的跳转URL组生成表单页跳转对集合;
第二筛选模块,包括标准对象模型获取单元和确定及筛除单元,所述标准对象模型获取单元配置用于获取所述表单页跳转对集合中各个表单页跳转对的第一个URL的标准对象模型,所述确定及筛除单元配置用于对所述标准对象模型进行解析,如果所述标准对象模型的属性字段中包括超链接属性字段,将所述表单页跳转对确定为符合预设条件的表单页跳转对并筛除;
第一确定模块,配置用于将所述表单页跳转对集合中剩余各个表单页跳转对中的URL进行泛化,确定目标页面URL,其中,所述目标页面URL为泛化后的第二个URL;
第二确定模块,配置用于对各个目标页面URL,将其所在的至少一个表单页跳转对中经过泛化的第一个URL确定为向该目标页面URL转化的表单页面URL。
6.根据权利要求5所述的装置,其特征在于,所述分解模块包括用于获得所述跳转URL组的下列单元:
访问请求信息获取单元,配置用于获取每个被访问页面URL的访问请求信息;
链接页面URL获取单元,配置用于从所述访问请求信息中获取链接到当前页面URL的链接页面URL;
生成单元,配置用于将所述链接页面URL和所述当前页面URL生成一个跳转URL组,其中,所述链接页面URL为第一个URL,所述当前页面URL为第二个URL。
7.根据权利要求5所述的装置,其特征在于,将满足下列条件之一的页面URL筛选出来加入表单页面URL集合:
所述页面URL与预设的URL模式相匹配;
所述页面URL对应的页面内容包含预设的关键字。
8.根据权利要求5所述的装置,其特征在于,所述第一确定模块包括:
处理单元,配置用于将表单页跳转对集合中剩余各个表单页跳转对中的URL进行去参数处理;
合并单元,配置用于对进行去参数处理后的各个表单页跳转对,合并相同的第二个URL作为所述目标页面URL。
CN201610037371.6A 2016-01-20 2016-01-20 查找表单页面和目标页面转化关系的方法和装置 Active CN105718559B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610037371.6A CN105718559B (zh) 2016-01-20 2016-01-20 查找表单页面和目标页面转化关系的方法和装置
PCT/CN2016/086408 WO2017124692A1 (zh) 2016-01-20 2016-06-20 查找表单页面和目标页面转化关系的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610037371.6A CN105718559B (zh) 2016-01-20 2016-01-20 查找表单页面和目标页面转化关系的方法和装置

Publications (2)

Publication Number Publication Date
CN105718559A CN105718559A (zh) 2016-06-29
CN105718559B true CN105718559B (zh) 2018-02-13

Family

ID=56147960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610037371.6A Active CN105718559B (zh) 2016-01-20 2016-01-20 查找表单页面和目标页面转化关系的方法和装置

Country Status (2)

Country Link
CN (1) CN105718559B (zh)
WO (1) WO2017124692A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326396B (zh) * 2016-08-19 2019-08-23 武汉斗鱼网络科技有限公司 移动客户端中利用自定义url实现页面跳转的方法及***
CN107506478A (zh) * 2017-09-08 2017-12-22 北京京东尚科信息技术有限公司 一种区分网站页面的方法和装置
CN109949117B (zh) * 2017-12-21 2021-06-29 北京京东尚科信息技术有限公司 用于推送信息的方法和装置
CN110968824B (zh) * 2018-09-30 2023-08-25 北京国双科技有限公司 页面数据处理方法和装置
CN109933736B (zh) * 2019-03-08 2023-04-07 浪潮通用软件有限公司 安全访问第三方jsp页面的方法、装置及存储介质
CN111708965B (zh) * 2020-05-28 2024-05-03 北京嗨学网教育科技股份有限公司 一种同域跨单页应用无感知跳转方法及装置
CN112836151A (zh) * 2021-03-30 2021-05-25 中国工商银行股份有限公司 页面操作重放方法、装置、客户端、设备及存储介质
CN113792232B (zh) * 2021-09-13 2024-02-27 北京百度网讯科技有限公司 页面特征计算方法、装置、电子设备、介质及程序产品
CN113590985B (zh) * 2021-09-29 2022-01-04 北京每日优鲜电子商务有限公司 页面跳转配置方法、装置、电子设备和计算机可读介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268667A (ja) * 2001-03-06 2002-09-20 Canon Inc プレゼンテーションシステムおよびその制御方法
CN102054004B (zh) * 2009-11-04 2015-05-06 清华大学 一种网页推荐方法和装置
CN101984429B (zh) * 2010-11-04 2012-03-14 北京百度网讯科技有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN102663291B (zh) * 2012-03-23 2015-02-25 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN103810184B (zh) * 2012-11-07 2017-09-26 阿里巴巴集团控股有限公司 确定网站页面地址流转率的方法、优化方法及其装置
CN103077250B (zh) * 2013-01-28 2016-06-29 人民搜索网络股份公司 一种网页内容抓取方法及装置
CN104158828B (zh) * 2014-09-05 2018-05-18 北京奇虎科技有限公司 基于云端内容规则库识别可疑钓鱼网页的方法及***

Also Published As

Publication number Publication date
WO2017124692A1 (zh) 2017-07-27
CN105718559A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105718559B (zh) 查找表单页面和目标页面转化关系的方法和装置
US11372935B2 (en) Automatically generating a website specific to an industry
CN102812452B (zh) 用于显示缓存网页的***、服务器、终端、方法、以及记录该方法的计算机可读记录介质
CA2687483C (en) Method and system for desktop tagging of a web page
CN101971172B (zh) 移动站点地图
CN100442283C (zh) 面向领域基于样本的互联网结构化数据抽取方法及其***
CN107679211A (zh) 用于推送信息的方法和装置
CN107491534A (zh) 信息处理方法和装置
CN102073726B (zh) 搜索引擎***的结构化数据的引入方法和装置
CN105426508B (zh) 网页生成方法和装置
US20110082848A1 (en) Systems, methods and computer program products for search results management
CN107832468A (zh) 需求识别方法和装置
CN101568938A (zh) 数字媒体对象的链接翻新
US20110209046A1 (en) Optimizing web content display on an electronic mobile reader
CN102483756A (zh) 使用社区交流的语义分析的助理顾问
JP2003016001A (ja) コンテンツ変換方法及び変換後コンテンツ取得方法
CN102750352A (zh) 浏览器中分类收藏历史访问记录的方法及装置
CN108268635A (zh) 用于获取数据的方法和装置
CN102761532A (zh) 网络视频的信息处理***和方法
CN108334619A (zh) 一种数据采集方法、装置、计算设备及存储介质
CN107977678A (zh) 用于输出信息的方法和装置
CN107958009A (zh) 企业信息获取方法、装置以及设备
CN108062468A (zh) 一种基于图片验证码识别的网络爬虫方法
CN110222251A (zh) 一种基于网页分割和搜索算法的服务包装方法
CN107656910A (zh) 用于生成表单的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant