发明内容
针对上述技术问题,本说明书实施例提供一种页面特征识别方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种页面特征识别方法,该方法包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第二方面,提供一种页面特征识别方法的用户行为采集方法,所述方法包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
根据本说明书实施例的第三方面,提供一种页面特征识别装置,所述装置包括:
原始页面获取模块:用于确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
结构特征匹配模块:用于使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
页面特征确定模块:用于将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第四方面,提供一种基于页面特征识别装置的用户行为采集装置,所述装置包括:
用户行为监测模块:用于监测到用户发生点击行为后,获取所述用户点击的页面元素;
页面关键点确定模块:用于获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
用户行为上报模块:用于上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种页面特征识别方法,所述方法包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第六方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种基于页面特征识别方法的用户行为采集方法,所述方法包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
本说明书实施例所提供的技术方案,提供了一种页面特征识别方法,先预设若干种页面关键点的结构模式,再依次将网页各级区块的结构特征与预设的页面关键点的结构特征进行匹配,以自动识别节网页中的页面关键点。当用户点击页面上的任意元素时,都会自动获取其对应的自动生成的页面关键点进行上报。在不需要提前标注页面关键点和追踪元素的情况下,实现对用户点击元素的识别与分类。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在Web用户行为分析中,通常需要对用户在页面端进行的浏览、点击等行为进行分析。而在对用户的点击行为进行分析的时候,一般需要获取用户点击的元素信息、用户发生点击的元素所在的逻辑区块信息,以识别并分类用户的点击行为。
在传统的用户行为信息收集工具中,往往需要手动对页面的关键点进行标注。当用户发生点击时,再将点击到的元素和该元素对应的关键点进行上报。传统的方案需要繁琐的手工标注动作,存在标记工作繁琐、耗时长、精准度差等问题。
针对以上问题,本说明书实施例提供一种页面特征识别方法,以及一种用于执行该方法的页面特征识别装置,下面对本实施例涉及的页面特征识别方法进行详细说明,参见图1所示,该方法可以包括以下步骤:
S101,确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面;
可以理解,多级区块即区块可分为一级区块,二级区块,三级区块…每个上级区块均可包含多个下级区块。
由一级区块开始进行结构特征识别,该结构特征识别过程也可称为模式匹配过程。当某一个一级区块识别完毕后,继续依次识别该一级区块下包含的二级区块,依次类推,直到将该原始页面下的所有区块遍历识别完毕。
S102,针对任一区块,使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
其中,预置的多种关键点结构特征可以包括:标题结构特征,列表结构特征,内容结构特征。以及标题结构特征,列表结构特征,内容结构特征的两两组合结构特征,即标题+列表结构特征,标题+内容结构特征,内容+列表结构特征。
参见图2与图3,为支付宝页面的识别前与识别后的示意图,举例说明具体识别流程:获取原始页面的其中一个一级区块,将该一级区块与预置的多种关键点结构特征进行匹配,进而确定该一级区块的结构特征与“标题+列表”型关键点结构特征的匹配度符合预设条件,将该一级区块确定为“标题+列表”模式,
继续对该一级区块下的其中一个二级区块进行判断,将该二级区块与预置的多种关键点结构特征进行匹配,进而确定该二级区块的结构特征与“列表”型关键点结构特征的匹配度符合预设条件,将该二级区块确定为“列表”模式。
继续对该二级区块下的其中一个三级区块进行判断,将该三级区块与预置的多种关键点结构特征进行匹配,进而确定该三级区块的结构特征与“内容”型关键点结构特征的匹配度符合预设条件,将该三级区块确定为“内容”模式。
其中,页面结构特征即页面中元素的构成特征,其可包括页面中包含的元素种类特征,元素数量特征,元素大小特征和/或元素布局特征等等。举例说明,当区块中元素数量较少,且元素布局为单个元素的孤立布局时,将这样的结构特征确定为标题特征;当区块中元素布局为多个元素等距离平均排列时,将这样的结构特征确定为列表特征;当区块中不符合标题特征和列表特征时,则判定其大概率符合内容特征。
在一种实际的应用场景下,可以将原始页面的多级区块视为网页代码中父子节点,从原始网页的根节点开始,依次对每一个子节点递归进行模式匹配。举例说明:如果当前子节点匹配了标题+列表模式,则标记成“标题+列表”,继续判断它的子节点。如果当前子节点匹配了列表模式,则标记成“列表”,继续判断它的子节点。如果当前子节点匹配了内容区域模式,则标记成“内容”,继续判断它的子节点。直到页面上所有的节点都已经判断完毕。
S103,将识别出的各个页面关键点确定为所述页面的页面特征。
进一步地,可将识别出的各个页面关键点作为页面特征标注在所述原始页面的对应位置。
本说明书还提供一种基于上述页面特征识别方法的用户行为采集方法,参见图4,该方法可以包括以下步骤:
S401,监测到用户发生点击行为后,获取所述用户点击的页面元素;
S402,从所述页面元素向上查找,将查找到的第一个页面关键点确定为页面元素的归属页面关键点;
其中,页面中的所有元素都包含在已识别出的页面关键点结构中,即页面中的所有元素都归属于上文识别出的标题,列表,内容几种页面关键点结构。当用户点击任一页面元素时,都可根据该元素查找到它的归属页面关键点。
S403,上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
举例说明:参见图2和图3,页面上“激活账户”位置为识别出的“列表”关键点,当用户点击“列表”区块包含的某个元素后,从该被点击的元素向上查找,进而获取该元素对应的“列表”关键点并将其确定为用户点击的页面元素的归属页面关键点,并上报所述页面元素信息与对应的归属页面关键点信息。
需要注意的是,当用户点击的页面部分不可响应时,则不执行上述流程。举例说明,页面中的“常用自助服务”位置被标记为“标题”结构,但该“常用自助服务”位置是无法响应用户的点击操作的,因此当用户点击该“常用自助服务”位置的页面元素时,不需要查找该页面元素对应的页面关键点。
相应于上述方法实施例,本说明书实施例还提供一种页面特征识别方法装置,参见图5所示,所述装置可以包括:原始页面获取模块510,结构特征匹配模块520和页面特征确定模块530。
原始页面获取模块510:用于确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
结构特征匹配模块520:用于使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
页面特征确定模块530:用于将识别出的各个页面关键点确定为所述页面的页面特征。
相应于上述方法实施例,本说明书实施例还提供一种基于上述页面特征识别装置的用户行为采集装置,参见图6所示,所述装置可以包括:用户行为监测模块610,页面关键点确定模块620和用户行为上报模块630。
用户行为监测模块610:用于监测到用户发生点击行为后,获取所述用户点击的页面元素;
页面关键点确定模块620:用于获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
用户行为上报模块630:用于上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述页面特征识别方法,所述方法至少包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述基于页面特征识别方法的用户行为采集方法,所述方法至少包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
处理器1110可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1120可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1120可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行。
输入/输出接口1130用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1140用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1150包括一通路,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的页面特征识别方法,所述方法至少包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于前述的页面特征识别方法的用户行为采集方法,所述方法至少包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。