CN110059272B - 一种页面特征识别方法和装置 - Google Patents

一种页面特征识别方法和装置 Download PDF

Info

Publication number
CN110059272B
CN110059272B CN201811300896.XA CN201811300896A CN110059272B CN 110059272 B CN110059272 B CN 110059272B CN 201811300896 A CN201811300896 A CN 201811300896A CN 110059272 B CN110059272 B CN 110059272B
Authority
CN
China
Prior art keywords
page
features
key point
block
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811300896.XA
Other languages
English (en)
Other versions
CN110059272A (zh
Inventor
饶海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811300896.XA priority Critical patent/CN110059272B/zh
Publication of CN110059272A publication Critical patent/CN110059272A/zh
Application granted granted Critical
Publication of CN110059272B publication Critical patent/CN110059272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种页面特征识别方法和装置。先预设若干种页面关键点的结构模式,再依次将网页各级区块的结构特征与预设的页面关键点的结构特征进行匹配,以自动识别网页中的页面关键点。当用户点击页面上的任意元素时,都会自动获取其对应的自动生成的页面关键点进行上报。在不需要提前标注页面关键点和追踪元素的情况下,实现对用户点击元素的识别与分类。

Description

一种页面特征识别方法和装置
技术领域
本说明书涉及互联网技术领域,尤其涉及一种页面特征识别方法和装置。
背景技术
在Web用户行为分析中,通常需要对用户在页面端进行的浏览、点击等行为进行分析。而在对用户的点击行为进行分析的时候,一般需要获取用户点击的元素信息、用户发生点击的元素所在的逻辑区块信息,以识别并分类用户的点击行为。
在传统的用户行为信息收集工具中,往往需要手动对页面的关键点进行标注。当用户发生点击时,再将点击到的元素和该元素对应的关键点进行上报。传统的方案需要繁琐的手工标注动作,存在标记工作繁琐、耗时长、精准度差等问题。
发明内容
针对上述技术问题,本说明书实施例提供一种页面特征识别方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种页面特征识别方法,该方法包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第二方面,提供一种页面特征识别方法的用户行为采集方法,所述方法包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
根据本说明书实施例的第三方面,提供一种页面特征识别装置,所述装置包括:
原始页面获取模块:用于确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
结构特征匹配模块:用于使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
页面特征确定模块:用于将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第四方面,提供一种基于页面特征识别装置的用户行为采集装置,所述装置包括:
用户行为监测模块:用于监测到用户发生点击行为后,获取所述用户点击的页面元素;
页面关键点确定模块:用于获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
用户行为上报模块:用于上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种页面特征识别方法,所述方法包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
根据本说明书实施例的第六方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种基于页面特征识别方法的用户行为采集方法,所述方法包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
本说明书实施例所提供的技术方案,提供了一种页面特征识别方法,先预设若干种页面关键点的结构模式,再依次将网页各级区块的结构特征与预设的页面关键点的结构特征进行匹配,以自动识别节网页中的页面关键点。当用户点击页面上的任意元素时,都会自动获取其对应的自动生成的页面关键点进行上报。在不需要提前标注页面关键点和追踪元素的情况下,实现对用户点击元素的识别与分类。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书一示例性实施例示出的页面特征识别方法的一种流程图;
图2-3是本说明书一示例性实施例示出的页面特征识别方法的一种示意图;
图4是本说明书一示例性实施例示出的基于页面特征识别的用户行为采集方法的一种流程图;
图5是本说明书一示例性实施例示出的页面特征识别装置的一种示意图;
图6是本说明书一示例性实施例示出的基于页面特征识别的用户行为采集装置的一种示意图;
图7是本说明书一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在Web用户行为分析中,通常需要对用户在页面端进行的浏览、点击等行为进行分析。而在对用户的点击行为进行分析的时候,一般需要获取用户点击的元素信息、用户发生点击的元素所在的逻辑区块信息,以识别并分类用户的点击行为。
在传统的用户行为信息收集工具中,往往需要手动对页面的关键点进行标注。当用户发生点击时,再将点击到的元素和该元素对应的关键点进行上报。传统的方案需要繁琐的手工标注动作,存在标记工作繁琐、耗时长、精准度差等问题。
针对以上问题,本说明书实施例提供一种页面特征识别方法,以及一种用于执行该方法的页面特征识别装置,下面对本实施例涉及的页面特征识别方法进行详细说明,参见图1所示,该方法可以包括以下步骤:
S101,确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面;
可以理解,多级区块即区块可分为一级区块,二级区块,三级区块…每个上级区块均可包含多个下级区块。
由一级区块开始进行结构特征识别,该结构特征识别过程也可称为模式匹配过程。当某一个一级区块识别完毕后,继续依次识别该一级区块下包含的二级区块,依次类推,直到将该原始页面下的所有区块遍历识别完毕。
S102,针对任一区块,使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
其中,预置的多种关键点结构特征可以包括:标题结构特征,列表结构特征,内容结构特征。以及标题结构特征,列表结构特征,内容结构特征的两两组合结构特征,即标题+列表结构特征,标题+内容结构特征,内容+列表结构特征。
参见图2与图3,为支付宝页面的识别前与识别后的示意图,举例说明具体识别流程:获取原始页面的其中一个一级区块,将该一级区块与预置的多种关键点结构特征进行匹配,进而确定该一级区块的结构特征与“标题+列表”型关键点结构特征的匹配度符合预设条件,将该一级区块确定为“标题+列表”模式,
继续对该一级区块下的其中一个二级区块进行判断,将该二级区块与预置的多种关键点结构特征进行匹配,进而确定该二级区块的结构特征与“列表”型关键点结构特征的匹配度符合预设条件,将该二级区块确定为“列表”模式。
继续对该二级区块下的其中一个三级区块进行判断,将该三级区块与预置的多种关键点结构特征进行匹配,进而确定该三级区块的结构特征与“内容”型关键点结构特征的匹配度符合预设条件,将该三级区块确定为“内容”模式。
其中,页面结构特征即页面中元素的构成特征,其可包括页面中包含的元素种类特征,元素数量特征,元素大小特征和/或元素布局特征等等。举例说明,当区块中元素数量较少,且元素布局为单个元素的孤立布局时,将这样的结构特征确定为标题特征;当区块中元素布局为多个元素等距离平均排列时,将这样的结构特征确定为列表特征;当区块中不符合标题特征和列表特征时,则判定其大概率符合内容特征。
在一种实际的应用场景下,可以将原始页面的多级区块视为网页代码中父子节点,从原始网页的根节点开始,依次对每一个子节点递归进行模式匹配。举例说明:如果当前子节点匹配了标题+列表模式,则标记成“标题+列表”,继续判断它的子节点。如果当前子节点匹配了列表模式,则标记成“列表”,继续判断它的子节点。如果当前子节点匹配了内容区域模式,则标记成“内容”,继续判断它的子节点。直到页面上所有的节点都已经判断完毕。
S103,将识别出的各个页面关键点确定为所述页面的页面特征。
进一步地,可将识别出的各个页面关键点作为页面特征标注在所述原始页面的对应位置。
本说明书还提供一种基于上述页面特征识别方法的用户行为采集方法,参见图4,该方法可以包括以下步骤:
S401,监测到用户发生点击行为后,获取所述用户点击的页面元素;
S402,从所述页面元素向上查找,将查找到的第一个页面关键点确定为页面元素的归属页面关键点;
其中,页面中的所有元素都包含在已识别出的页面关键点结构中,即页面中的所有元素都归属于上文识别出的标题,列表,内容几种页面关键点结构。当用户点击任一页面元素时,都可根据该元素查找到它的归属页面关键点。
S403,上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
举例说明:参见图2和图3,页面上“激活账户”位置为识别出的“列表”关键点,当用户点击“列表”区块包含的某个元素后,从该被点击的元素向上查找,进而获取该元素对应的“列表”关键点并将其确定为用户点击的页面元素的归属页面关键点,并上报所述页面元素信息与对应的归属页面关键点信息。
需要注意的是,当用户点击的页面部分不可响应时,则不执行上述流程。举例说明,页面中的“常用自助服务”位置被标记为“标题”结构,但该“常用自助服务”位置是无法响应用户的点击操作的,因此当用户点击该“常用自助服务”位置的页面元素时,不需要查找该页面元素对应的页面关键点。
相应于上述方法实施例,本说明书实施例还提供一种页面特征识别方法装置,参见图5所示,所述装置可以包括:原始页面获取模块510,结构特征匹配模块520和页面特征确定模块530。
原始页面获取模块510:用于确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
结构特征匹配模块520:用于使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
页面特征确定模块530:用于将识别出的各个页面关键点确定为所述页面的页面特征。
相应于上述方法实施例,本说明书实施例还提供一种基于上述页面特征识别装置的用户行为采集装置,参见图6所示,所述装置可以包括:用户行为监测模块610,页面关键点确定模块620和用户行为上报模块630。
用户行为监测模块610:用于监测到用户发生点击行为后,获取所述用户点击的页面元素;
页面关键点确定模块620:用于获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
用户行为上报模块630:用于上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述页面特征识别方法,所述方法至少包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述基于页面特征识别方法的用户行为采集方法,所述方法至少包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
处理器1110可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1120可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1120可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行。
输入/输出接口1130用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1140用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1150包括一通路,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的页面特征识别方法,所述方法至少包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;
将识别出的各个页面关键点确定为所述页面的页面特征。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于前述的页面特征识别方法的用户行为采集方法,所述方法至少包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (11)

1.一种页面特征识别方法,所述方法包括:
确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,每个所述上级区块包含至少一个所述下级区块,并针对任一区块,进行如下操作:
使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;所述页面关键点结构特征,包括:标题结构特征,列表结构特征和内容结构特征;和/或,包括:标题结构特征,列表结构特征,内容结构特征的两两组合结构特征;
将识别出的各个页面关键点确定为所述页面的页面特征。
2.根据权利要求1所述的方法,所述将识别出的各个页面关键点确定为所述页面的页面特征,包括:
将识别出的各个页面关键点作为页面特征标注在所述原始页面的对应位置。
3.根据权利要求1所述的方法,所述页面结构特征,包括页面中包含的元素种类特征,元素数量特征,元素大小特征和/或元素布局特征。
4.一种基于权利要求1所述的页面特征识别方法的用户行为采集方法,所述方法包括:
监测到用户发生点击行为后,获取所述用户点击的页面元素;
从所述页面元素向上查找,将查找到的第一个页面关键点确定为页面元素的归属页面关键点;
上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
5.一种页面特征识别装置,所述装置包括:
原始页面获取模块:用于确定待识别原始页面,所述待识别原始页面由多级区块组成,按照从上级区块至下级区块的遍历顺序遍历所述原始页面,每个所述上级区块包含至少一个所述下级区块,并针对任一区块,进行如下操作:
结构特征匹配模块:用于使用预设的匹配算法将所述区块的页面结构特征与预置的多种关键点结构特征进行匹配,若所述区块的结构特征与任一预置页面关键点结构特征的匹配度符合预设条件,则将所述区块识别为对应的页面关键点;所述页面关键点结构特征,包括:标题结构特征,列表结构特征和内容结构特征;和/或,包括:标题结构特征,列表结构特征,内容结构特征的两两组合结构特征;
页面特征确定模块:用于将识别出的各个页面关键点确定为所述页面的页面特征。
6.根据权利要求5所述的装置,所述将识别出的各个页面关键点确定为所述页面的页面特征,包括:
将识别出的各个页面关键点作为页面特征标注在所述原始页面的对应位置。
7.根据权利要求5所述的装置,所述页面结构特征,包括页面中包含的元素种类特征,元素数量特征,元素大小特征和/或元素间距离特征。
8.一种基于权利要求5所述的页面特征识别装置的用户行为采集装置,所述装置包括:
用户行为监测模块:用于监测到用户发生点击行为后,获取所述用户点击的页面元素;
页面关键点确定模块:用于获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点;
用户行为上报模块:用于上报所述页面元素信息与对应的归属页面关键点信息,将上报结果作为本次用户行为采集结果。
9.根据权利要求8所述的装置,所述获取所述页面元素所在区块的页面关键点,将所述页面关键点作为页面元素的归属页面关键点,包括:
从所述页面元素向上查找,将查找到的第一个页面关键点确定为页面元素的归属页面关键点。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1所述的方法。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求4所述的方法。
CN201811300896.XA 2018-11-02 2018-11-02 一种页面特征识别方法和装置 Active CN110059272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811300896.XA CN110059272B (zh) 2018-11-02 2018-11-02 一种页面特征识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811300896.XA CN110059272B (zh) 2018-11-02 2018-11-02 一种页面特征识别方法和装置

Publications (2)

Publication Number Publication Date
CN110059272A CN110059272A (zh) 2019-07-26
CN110059272B true CN110059272B (zh) 2023-08-15

Family

ID=67315522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811300896.XA Active CN110059272B (zh) 2018-11-02 2018-11-02 一种页面特征识别方法和装置

Country Status (1)

Country Link
CN (1) CN110059272B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888810B (zh) * 2019-11-19 2020-10-30 广东润联信息技术有限公司 自动识别并标注的方法、装置、计算机设备及存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9914127D0 (en) * 1998-07-06 1999-08-18 Ibm Display screen and window size related web page adaptation system
EP2015225A1 (en) * 2007-07-11 2009-01-14 Ricoh Company, Ltd. Invisible junction feature recognition for document security or annotation
CA2747057A1 (en) * 2008-12-16 2010-07-08 Bodymedia, Inc. Method and apparatus for determining heart rate variability using wavelet transformation
CN101833574A (zh) * 2010-04-15 2010-09-15 西安酷派软件科技有限公司 一种应用程序的定位方法、***及移动终端
CN102314498A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于对页面进行主体识别的方法与设备
CN102598038A (zh) * 2009-10-30 2012-07-18 乐天株式会社 特有内容数据判定程序、特有内容数据判定装置、特有内容数据判定方法、记录介质、内容数据生成装置以及关联内容数据***装置
CA2837673A1 (en) * 2011-05-30 2012-12-06 Transcon Securities Pty Ltd Financial management system
CN102981689A (zh) * 2011-09-07 2013-03-20 腾讯科技(深圳)有限公司 一种实现默认焦点定位的方法、装置和***
CN103942224A (zh) * 2013-01-23 2014-07-23 百度在线网络技术(北京)有限公司 一种获取网页分块的标注规则的方法及装置
CN104182424A (zh) * 2013-05-28 2014-12-03 中国电信股份有限公司 适用于移动终端的网页处理方法和服务器
CN105447139A (zh) * 2015-11-20 2016-03-30 广州华多网络科技有限公司 一种数据采集统计方法及其***、终端、服务设备
CN106293765A (zh) * 2016-08-23 2017-01-04 乐视控股(北京)有限公司 一种布局更新方法及装置
CN106598421A (zh) * 2016-11-01 2017-04-26 乐视控股(北京)有限公司 一种网页点击智能识别方法及装置
CN106708952A (zh) * 2016-11-25 2017-05-24 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN107169007A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种移动终端的显示界面设置方法及装置
CN107633019A (zh) * 2017-08-24 2018-01-26 阿里巴巴集团控股有限公司 一种页面事件采集方法和装置
CN107729768A (zh) * 2017-11-03 2018-02-23 广州视源电子科技股份有限公司 一种页面显示方法、装置、智能平板和存储介质
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110288A1 (en) * 2007-10-29 2009-04-30 Kabushiki Kaisha Toshiba Document processing apparatus and document processing method
JP5522024B2 (ja) * 2010-12-27 2014-06-18 ブラザー工業株式会社 画像処理装置、画像処理方法、及び画像処理プログラム

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9914127D0 (en) * 1998-07-06 1999-08-18 Ibm Display screen and window size related web page adaptation system
EP2015225A1 (en) * 2007-07-11 2009-01-14 Ricoh Company, Ltd. Invisible junction feature recognition for document security or annotation
CA2747057A1 (en) * 2008-12-16 2010-07-08 Bodymedia, Inc. Method and apparatus for determining heart rate variability using wavelet transformation
CN102598038A (zh) * 2009-10-30 2012-07-18 乐天株式会社 特有内容数据判定程序、特有内容数据判定装置、特有内容数据判定方法、记录介质、内容数据生成装置以及关联内容数据***装置
CN101833574A (zh) * 2010-04-15 2010-09-15 西安酷派软件科技有限公司 一种应用程序的定位方法、***及移动终端
CA2837673A1 (en) * 2011-05-30 2012-12-06 Transcon Securities Pty Ltd Financial management system
CN102314498A (zh) * 2011-08-26 2012-01-11 百度在线网络技术(北京)有限公司 一种用于对页面进行主体识别的方法与设备
CN102981689A (zh) * 2011-09-07 2013-03-20 腾讯科技(深圳)有限公司 一种实现默认焦点定位的方法、装置和***
CN103942224A (zh) * 2013-01-23 2014-07-23 百度在线网络技术(北京)有限公司 一种获取网页分块的标注规则的方法及装置
CN104182424A (zh) * 2013-05-28 2014-12-03 中国电信股份有限公司 适用于移动终端的网页处理方法和服务器
CN105447139A (zh) * 2015-11-20 2016-03-30 广州华多网络科技有限公司 一种数据采集统计方法及其***、终端、服务设备
CN106293765A (zh) * 2016-08-23 2017-01-04 乐视控股(北京)有限公司 一种布局更新方法及装置
CN106598421A (zh) * 2016-11-01 2017-04-26 乐视控股(北京)有限公司 一种网页点击智能识别方法及装置
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN106708952A (zh) * 2016-11-25 2017-05-24 北京神州绿盟信息安全科技股份有限公司 一种网页聚类方法及装置
CN107169007A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种移动终端的显示界面设置方法及装置
CN107633019A (zh) * 2017-08-24 2018-01-26 阿里巴巴集团控股有限公司 一种页面事件采集方法和装置
CN107729768A (zh) * 2017-11-03 2018-02-23 广州视源电子科技股份有限公司 一种页面显示方法、装置、智能平板和存储介质
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王霞.网络教育新闻文本分类***的设计与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2012,(第(2012)7期),I138-2664 . *

Also Published As

Publication number Publication date
CN110059272A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN107657048B (zh) 用户识别方法及装置
CN107341220B (zh) 一种多源数据融合方法和装置
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN110795458B (zh) 交互式数据分析方法、装置、电子设备和计算机可读存储介质
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
JP6966158B2 (ja) 検索データを処理するための方法、装置及びプログラム
CN106033455B (zh) 一种处理用户操作信息的方法与设备
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
US20150302088A1 (en) Method and System for Providing Personalized Content
JP2015106347A (ja) レコメンド装置およびレコメンド方法
CN108182200B (zh) 基于语义相似度的关键词拓展方法和装置
CN116108150A (zh) 一种智能问答方法、装置、***及电子设备
CN110059272B (zh) 一种页面特征识别方法和装置
CN112491816A (zh) 业务数据处理方法及装置
CN115641191B (zh) 一种基于数据分析的数据推送方法及ai***
CN110796178A (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN111539576B (zh) 一种风险识别模型的优化方法及装置
CN112598185A (zh) 农业舆情分析方法、装置、设备及存储介质
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN110019771B (zh) 文本处理的方法及装置
CN111597368A (zh) 一种数据处理方法及装置
CN117435640A (zh) 一种用于定位相似实例的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant