CN103678667A - 用于在线访问的数据处理方法和装置 - Google Patents

用于在线访问的数据处理方法和装置 Download PDF

Info

Publication number
CN103678667A
CN103678667A CN201310723886.8A CN201310723886A CN103678667A CN 103678667 A CN103678667 A CN 103678667A CN 201310723886 A CN201310723886 A CN 201310723886A CN 103678667 A CN103678667 A CN 103678667A
Authority
CN
China
Prior art keywords
session
cross
domain
absorbed
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310723886.8A
Other languages
English (en)
Other versions
CN103678667B (zh
Inventor
刘合翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310723886.8A priority Critical patent/CN103678667B/zh
Publication of CN103678667A publication Critical patent/CN103678667A/zh
Application granted granted Critical
Publication of CN103678667B publication Critical patent/CN103678667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于在线访问的数据处理方法和装置。该用于在线访问的数据处理方法包括:获取用户使用在线访问平台时产生的会话;检测会话的会话页面浏览数;获取用户在会话中的跨域信息;以及根据会话页面浏览数和跨域信息计算会话的会话专注指标。通过本发明,达到了自动检测在线访问中用户访问的专注水平的效果。

Description

用于在线访问的数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种用于在线访问的数据处理方法和装置。
背景技术
用户在在线访问中浏览网站、网页和不同网页栏目时,常常会根据其自身需求以及上述网站、网页和不同网页栏目的内容和导航等进行跨域访问,其中,跨域访问是指用户从一个网站切换到其他网站或者网页或者不同网页栏目等进行的访问。用户的跨域访问情况可以反映网站、网页和不同网页栏目的相关内容的吸引力情况以及相关导航的导航能力等,其中,这种内容的吸引力和导航的导航能力可以通过在线访问中用户访问的专注水平来衡量。
目前,在相关技术中还无法统计或者检测在线访问中用户访问的专注水平。
针对相关技术中无法检测在线访问中用户访问的专注水平的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于在线访问的数据处理方法和装置,以解决相关技术中无法检测在线访问中用户访问的专注水平的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于在线访问的数据处理方法。该方法包括:获取用户使用在线访问平台时产生的会话;检测会话的会话页面浏览数;获取用户在会话中的跨域信息;以及根据会话页面浏览数和跨域信息计算会话的会话专注指标。
进一步地,获取用户使用在线访问平台时产生的会话包括:获取用户使用在线访问平台时产生的会话的会话开始时间;获取用户使用在线访问平台时产生的会话的会话结束时间,检测会话的会话页面浏览数包括:检测会话在会话开始时间和会话结束时间之间产生的会话页面浏览数,获取用户在会话中的跨域信息包括:当检测会话在会话开始时间和会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取用户在会话中的跨域信息。
进一步地,跨域信息包括跨域类型和跨域类型对应的跨域次数,其中,跨域类型包括第一跨域类型和第二跨域类型,跨域次数包括第一跨域类型对应的第一跨域次数和第二跨域类型对应的第二跨域次数,在获取用户在会话中的跨域信息之后,该数据处理方法还包括:根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息,其中,由第一跨域类型获取到第一预设评分信息,由第二跨域类型获取到第二预设评分信息;以及根据第一跨域次数和第二跨域次数以及第一预设评分信息和第二预设评分信息确定跨域类型对应的跨域总评分LC信息,其中,根据会话网页浏览数和跨域信息计算会话的会话专注指标包括:根据跨域总评分LC信息和会话网页浏览数计算会话的会话专注指标。
进一步地,根据跨域总评分LC信息和会话网页浏览数计算会话的会话专注指标包括:计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标。
进一步地,在计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标之后,该数据处理方法还包括:获取会话的会话专注指标阈值;判断会话的会话专注指标是否大于会话的会话专注指标阈值;如果判断出会话的会话专注指标大于会话的会话专注指标阈值,则确定会话为专注会话;如果判断出会话的会话专注指标不大于会话的会话专注指标阈值,则确定会话为非专注会话;获取在线访问平台在预设时间段内的专注会话的次数和会话的总次数;以及计算专注会话的次数占会话的总次数比例以确定在线访问平台的用户专注度。
为了实现上述目的,根据本发明的另一方面,提供了一种用于在线访问的数据处理装置。该装置包括:第一获取单元,用于获取用户使用在线访问平台时产生的会话;检测单元,用于检测会话的会话页面浏览数;第二获取单元,用于获取用户在会话中的跨域信息;以及计算单元,用于根据会话页面浏览数和跨域信息计算会话的会话专注指标。
进一步地,第一获取单元包括:第一获取模块,用于获取用户使用在线访问平台时产生的会话的会话开始时间;第二获取模块,用于获取用户使用在线访问平台时产生的会话的会话结束时间,检测单元还用于检测会话在会话开始时间和会话结束时间之间产生的会话页面浏览数,第二获取单元还用于当检测会话在会话开始时间和会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取用户在会话中的跨域信息。
进一步地,跨域信息包括跨域类型和跨域类型对应的跨域次数,其中,跨域类型包括第一跨域类型和第二跨域类型,跨域次数包括第一跨域类型对应的第一跨域次数和第二跨域类型对应的第二跨域次数,该数据处理装置还包括:第三获取单元,用于在获取用户在会话中的跨域信息之后,根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息,其中,由第一跨域类型获取到第一预设评分信息,由第二跨域类型获取到第二预设评分信息;以及第一确定单元,用于根据第一跨域次数和第二跨域次数以及第一预设评分信息和第二预设评分信息确定跨域类型对应的跨域总评分LC信息,其中,计算单元还用于根据跨域总评分LC信息和会话网页浏览数计算会话的会话专注指标。
进一步地,计算单元还用于计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标。
进一步地,在计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标之后,该数据处理装置还包括:第四获取单元,用于获取会话的会话专注指标阈值;判断单元,用于判断会话的会话专注指标是否大于会话的会话专注指标阈值;第二确定单元,用于如果判断出会话的会话专注指标大于会话的会话专注指标阈值,则确定会话为专注会话;第三确定单元,用于如果判断出会话的会话专注指标不大于会话的会话专注指标阈值,则确定会话为非专注会话;第五获取单元,用于获取在线访问平台在预设时间段内的专注会话的次数和会话的总次数;以及第四确定单元,用于计算专注会话的次数占会话的总次数比例以确定在线访问平台的用户专注度。
通过本发明,采用获取用户使用在线访问平台时产生的会话;检测会话的会话页面浏览数;获取所述用户在会话中的跨域信息;以及根据会话页面浏览数和跨域信息计算会话的会话专注指标,解决了相关技术中无法检测在线访问中用户访问的专注水平的问题,进而达到了自动检测在线访问中用户访问的专注水平的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于在线访问的数据处理方法的流程图;
图2是根据本发明第二实施例的用于在线访问的数据处理方法的流程图;
图3是根据本发明第三实施例的用于在线访问的数据处理方法的流程图;
图4是根据本发明第一实施例的用于在线访问的数据处理装置的结构示意图;
图5是根据本发明第二实施例的用于在线访问的数据处理装置的结构示意图;以及
图6是根据本发明第三实施例的用于在线访问的数据处理装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于在线访问的数据处理方法,该用于在线访问的数据处理方法用于检测在线访问的专注水平。该用于在线访问的数据处理方法可以运行在计算机处理设备上。
图1是根据本发明第一实施例的用于在线访问的数据处理方法的流程图。
如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取用户使用在线访问平台时产生的会话。
需要说明的是,获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
需要说明的是,在线访问平台可以包括政府、学校、企业等的在线访问平台。以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器多个web资源,然后关闭浏览器的整个过程。
例如,当用户登录购物网站或向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样就会产生用户在一个会话中多次跨越网页或者网页栏目,甚至跨越切换网站的现象。
步骤S102,检测会话的会话页面浏览数。
会话页面浏览(Page View,简称PV)数是指用户在一个会话中浏览的页面的总数量,其中,会话PV数又叫做会话长度。检测会话的会话页面浏览数为检测在一个会话过程中用户方浏览的网页的总数量。
例如,当用户登录一个购物网站之后,分别查看了一次商家A、商家B和商家C的网页,然后结束本次登录,则可以检测到用户在本次会话中的会话PV数为3。
步骤S103,获取用户在会话中的跨域信息。
在本发明实施例中,获取用户在会话中的跨域信息可以包括获取一种或者多种跨域信息,例如,获取用户在会话中的跨域信息可以包括获取用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息,其中,在上述3种层级中,网站层级的跨域信息最复杂,栏目层级的跨域信息最简单,而上述栏目是不同网页的内容相同或者相近的栏目。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息。
步骤S104,根据会话页面浏览数和跨域信息计算会话的会话专注指标。
在本发明实施例中,会话专注指标可以用会话专注度表示,以下称其为会话专注度。会话专注度用于表征用户在会话中的专注水平,其中,会话专注度可以通过会话PV数和跨域信息的多种运算关系确定。当用户使用在线访问平台时产生的会话PV数一定时,则跨域信息的种类越复杂时会话专注度越低,进而说明网站内容的吸引力较小或者网站内的导航能力不佳,当否则当用户使用在线访问平台时产生的会话PV数一定时,则跨域信息的种类越简单时会话专注度越高,进而说明网站内容的吸引力较大或者网站内的导航能力较好。其中,导航能力的强弱是对一个网站而言的,当用户容易在一个网站内浏览信息而不跨越到其他网站时,说明该网站的导航能力较强,否则当用户不容易留在一个网站内浏览信息而是不断跨越到其他网站时,说明该网站的导航能力较弱。
例如,在一次会话中,当会话PV数为1时,用户可以通过以下方式查看商品1的相关信息:方式一,用户从网站A跨域到网站B查看商品1的相关信息;方式二,用户从网站A中的商家a跨域到同网站中的商家b查看商品1的相关信息,则方式一中的会话专注度低于方式二中的会话专注度,即与方式一中的网站A相比,方式二中的网站A的内容更具吸引力,且其导航能力更强。
这样,通过本发明实施例,由于会话PV数和跨域信息的运算结果可以反映会话的专注度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话的会话PV数并获取用户在会话中的跨域信息达到了自动检测在线访问中用户访问的专注水平。
图2是根据本发明第二实施例的用于在线访问的数据处理方法的流程图。
如图2所示,该用于在线访问的数据处理方法包括如下的步骤S201至步骤S205,该实施例可以作为图1所示实施例的优选实施方式。
步骤S201,获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
步骤S202,获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
这样,通过上述两个步骤,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
步骤S203,检测会话在会话开始时间和会话结束时间之间产生的会话页面浏览数。
在本发明实施例中,可以检测会话页面浏览PV是否发生在会话的开始时间和会话的结束时间之间,当检测到会话页面浏览PV发生在会话的开始时间和会话的结束时间之间后,记录会话页面浏览PV数。
这样,可以保证检测到的会话页面浏览PV为同一用户发起的同一会话的会话页面浏览PV,达到了准确检测会话页面浏览PV数的效果。
需要说明的是,在本发明实施例中,在检测到会话页面浏览PV数之后,可以判断会话页面浏览PV数是否大于预设会话页面浏览数,当判断出会话页面浏览PV数不大于预设会话页面浏览数时,不做任何处理,并且直接跳回步骤S201;当判断出会话页面浏览PV数大于预设会话页面浏览数时,则执行步骤S204。
由于会话页面浏览PV数较小时,例如会话页面浏览PV数为1时,说明用户在本次会话中仅仅浏览了一个网页,没有做出任何跨域,因此该会话的专注度为100%,这样,对会话页面浏览PV数较小的会话做会话的专注度检测意义不大,而只检测会话页面浏览PV数大于预设会话页面浏览数的会话的会话专注度,达到了提高检测效率的效果。
步骤S204,当检测会话在会话开始时间和会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取用户在会话中的跨域信息。
步骤S205,同图1所示实施例的步骤S104,在此不再赘述。
图3是根据本发明第三实施例的用于在线访问的数据处理方法的流程图。
如图3所示,该用于在线访问的数据处理方法包括如下的步骤S301至步骤S306,该实施例可以作为图1所示实施例的优选实施方式。
步骤S301至步骤S303,分别同图1所示实施例的步骤S101至步骤S103,在此不再赘述。
需要说明的是,在本发明实施例中,跨域信息可以包括跨域类型和跨域类型对应的跨域次数,其中,跨域类型可以包括第一跨域类型和第二跨域类型,跨域次数相应的可以包括第一跨域类型对应的第一跨域次数和第二跨域类型对应的第二跨域次数。
例如,第一跨域类型可以为网站层级的跨域类型,第二跨域类型可以为同一资源定位层级的跨域类型。
在本发明实施例中,可以在跨域类型表中预设跨域类型和在评分信息表中预设上述预设跨域类型对应的评分信息,并建立预设跨域类型与其对应的评分信息的对应关系。
步骤S304,根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息。
其中,可以由第一跨域类型获取到第一预设评分信息,以及可以由第二跨域类型获取到第二预设评分信息。需要说明的是,预设评分信息根据预设评分规则确定,例如,网站层级的跨域类型对应的预设评分信息可以为2分,同一资源定位层级的跨域类型可以为1分,分数越高说明该跨域类型对会话关注度的整体影响越大,分数越低说明该跨域类型对会话关注度的整体影响越小。
优选地,在获取跨域类型对应的预设评分信息之前,可以先判断跨域类型是否为预设跨域类型,当判断出其为预设跨域类型时,根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息,否则当判断出其不为预设跨域类型时,则可以在跨域类型表中自定义该跨域类型,并在评分信息表中自定义该跨域类型对应的评分信息,在自定义完评分信息之后获取该跨域类型对应的自定义评分信息。
步骤S305,根据第一跨域次数和第二跨域次数以及第一预设评分信息和第二预设评分信息确定跨域类型对应的跨域总评分LC信息。
其中,跨域总评分(Leap Count,简称LC)信息可以通过以下公式计算得到:LC=nX+mY,其中,n表示第一跨域次数,m表示第二跨域次数,X表示第一预设评分信息,Y表示第二预设评分信息。
需要说明的是,上述计算公式仅仅用于示例,在本发明实施例中,跨域总评分LC信息还可以根据跨域类型的跨域次数以及跨域类型的预设评分信息的其他运算形式确定。
步骤S306,根据跨域总评分LC信息和会话网页浏览数计算会话的会话专注指标。
在本发明实施例中,可以通过将跨域总评分LC信息和会话网页浏览数运用多种计算方式确定会话专注度(即会话专注指标)。
优选地,可以通过计算会话网页浏览PV数占跨域总评分LC信息的比例以确定会话的会话专注度,即Z=PV/LC,其中,Z表示会话专注度。当会话网页浏览PV数大小一定时,如果跨域总评分LC信息越大,则会话专注度越小,会话专注度越小说明网站的内容吸引力越小,并且网站的导航能力也越差;否则当会话网页浏览PV数大小一定时,如果跨域总评分LC信息越小,则会话专注度越大,会话专注度越大说明网站的内容吸引力越大,并且网站的导航能力也越好。
这样,通过上述定量计算可以准确地得到会话专注度,并根据会话专注度准确地把握网站的内容吸引力情况和导航的导航能力,进而对不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标之后,该数据处理方法还可以包括通过以下方式确定在线访问平台的用户专注度,其中,用户专注度是指在线访问平移台在预设时间段内的所有会话的整体专注水平:
步骤1,获取会话的会话专注指标阈值。
会话专注指标阈值为预先设定的,获取会话的会话专注指标阈值之后,可以将上述步骤确定的会话专注度(会话专注指标)与之比较,进而确定会话专注度(会话专注指标)对应的会话是否为专注会话。
步骤2,判断会话的会话专注指标是否大于会话的会话专注指标阈值。
步骤3,如果判断出会话的会话专注指标大于会话的会话专注指标阈值,则确定会话为专注会话。
步骤4,如果判断出会话的会话专注指标不大于会话的会话专注指标阈值,则确定会话为非专注会话。
步骤5,获取在线访问平台在预设时间段内的专注会话的次数和会话的总次数。
其中,会话的总次数为专注会话的次数与非专注会话的次数之和。
步骤6,计算专注会话的次数占会话的总次数比例以确定在线访问平台的用户专注度。
具体地,当用户专注度大时,说明专注会话的次数占的比例较大,当用户专注度小时,说明专注会话的次数占的比例较小。
由于检测会话专注度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话专注度,再确定多个会话中专注会话的比例,即用户专注度,避免了仅仅检测会话专注度的偶然性,进而达到了检测结果更准确的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明的实施例,提供了一种用于在线访问的数据处理装置,该用于在线访问的数据处理装置用于检测在线访问的专注水平。需要说明的是,本发明实施例所提供的用于在线访问的数据处理装置可以用于执行本发明实施例的用于在线访问的数据处理方法,本发明实施例的用于在线访问的数据处理方法也可以通过本发明实施例的用于在线访问的数据处理装置来执行。
图4是根据本发明第一实施例的用于在线访问的数据处理装置的结构示意图。
如图4所示,该装置包括:第一获取单元10、检测单元20、第二获取单元30和计算单元40。
第一获取单元10用于获取用户使用在线访问平台时产生的会话。
需要说明的是,第一获取单元10获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
需要说明的是,在线访问平台可以包括政府、学校、企业等的在线访问平台。以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器多个web资源,然后关闭浏览器的整个过程。
例如,当用户登录购物网站或向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样就会产生用户在一个会话中多次跨越网页或者网页栏目,甚至跨越切换网站的现象。
检测单元20用于检测会话的会话页面浏览数。
会话页面浏览(Page View,简称PV)数是指用户在一个会话中浏览的页面的总数量,其中,会话PV数又叫做会话长度。检测会话的会话页面浏览数为检测在一个会话过程中用户方浏览的网页的总数量。
例如,当用户登录一个购物网站之后,分别查看了一次商家A、商家B和商家C的网页,然后结束本次登录,则可以检测到用户在本次会话中的会话PV数为3。
第二获取单元30用于获取用户在会话中的跨域信息。
在本发明实施例中,第二获取单元30获取用户在会话中的跨域信息可以包括获取一种或者多种跨域信息,例如,获取用户在会话中的跨域信息可以包括获取用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息,其中,在上述3种层级中,网站层级的跨域信息最复杂,栏目层级的跨域信息最简单,而上述栏目是不同网页的内容相同或者相近的栏目。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息。
计算单元40用于根据会话页面浏览数和跨域信息计算会话的会话专注指标。
在本发明实施例中,会话专注指标可以用会话专注度表示,以下称其为会话专注度。会话专注度用于表征用户在会话中的专注水平,其中,会话专注度可以通过会话PV数和跨域信息的多种运算关系确定。当用户使用在线访问平台时产生的会话PV数一定时,则跨域信息的种类越复杂时会话专注度越低,进而说明网站内容的吸引力较小或者网站内的导航能力不佳,当否则当用户使用在线访问平台时产生的会话PV数一定时,则跨域信息的种类越简单时会话专注度越高,进而说明网站内容的吸引力较大或者网站内的导航能力较好。其中,导航能力的强弱是对一个网站而言的,当用户容易在一个网站内浏览信息而不跨越到其他网站时,说明该网站的导航能力较强,否则当用户不容易留在一个网站内浏览信息而是不断跨越到其他网站时,说明该网站的导航能力较弱。
例如,在一次会话中,当会话PV数为1时,用户可以通过以下方式查看商品1的相关信息:方式一,用户从网站A跨域到网站B查看商品1的相关信息;方式二,用户从网站A中的商家a跨域到同网站中的商家b查看商品1的相关信息,则方式一中的会话专注度低于方式二中的会话专注度,即与方式一中的网站A相比,方式二中的网站A的内容更具吸引力,且其导航能力更强。
这样,通过本发明实施例,由于会话PV数和跨域信息的运算结果可以反映会话的专注度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话的会话PV数并获取用户在会话中的跨域信息达到了自动检测在线访问中用户访问的专注水平。
图5是根据本发明第二实施例的用于在线访问的数据处理装置的结构示意图。
如图5所示,该实施例可以作为图4所示实施例的优选实施方式,该实施例的用于在线访问的数据处理装置包括第一实施例的第一获取单元10、检测单元20、第二获取单元30和计算单元40,其中,第一获取单元10包括第一获取模块101和第二获取模块102。
计算单元40的作用与第一实施例中的相同,在此不再赘述。
第一获取模块101用于获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
第一获取模块101用于获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
这样,通过上述两个步骤,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
检测单元20用于检测会话在会话开始时间和会话结束时间之间产生的会话页面浏览数。
在本发明实施例中,可以检测会话页面浏览PV是否发生在会话的开始时间和会话的结束时间之间,当检测到会话页面浏览PV发生在会话的开始时间和会话的结束时间之间后,记录会话页面浏览PV数。
这样,可以保证检测到的会话页面浏览PV为同一用户发起的同一会话的会话页面浏览PV,达到了准确检测会话页面浏览PV数的效果。
需要说明的是,在本发明实施例中,在检测到会话页面浏览PV数之后,可以判断会话页面浏览PV数是否大于预设会话页面浏览数,当判断会话页面浏览PV数是否不大于预设会话页面浏览数时,不做任何处理。
由于会话页面浏览PV数较小时,例如会话页面浏览PV数为1时,说明用户在本次会话中仅仅浏览了一个网页,没有做出任何跨域,因此该会话的专注度为100%,这样,对会话页面浏览PV数较小的会话做会话的专注度检测意义不大,而只检测会话页面浏览PV数大于预设会话页面浏览数的会话的会话专注度,进而达到了提高检测效率的效果。
第二获取单元30用于当检测会话在会话开始时间和会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取用户在会话中的跨域信息。
图6是根据本发明第三实施例的用于在线访问的数据处理装置的结构示意图。
如图6所示,该实施例可以作为图4所示实施例的优选实施方式,该实施例的用于在线访问的数据处理装置除了包括第一实施例的第一获取单元10、检测单元20、第二获取单元30和计算单元40之外,还包括第三获取单元50和确定单元60。
第一获取单元10、检测单元20和第二获取单元30的作用与第一实施例中的相同,在此不再赘述。
需要说明的是,在本发明实施例中,跨域信息可以包括跨域类型和跨域类型对应的跨域次数,其中,跨域类型可以包括第一跨域类型和第二跨域类型,跨域次数相应的可以包括第一跨域类型对应的第一跨域次数和第二跨域类型对应的第二跨域次数。
例如,第一跨域类型可以为网站层级的跨域类型,第二跨域类型可以为同一资源定位层级的跨域类型。
在本发明实施例中,可以在跨域类型表中预设跨域类型和在评分信息表中预设上述预设跨域类型对应的评分信息,并建立预设跨域类型与其对应的评分信息的对应关系。
第三获取单元50用于根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息。
其中,可以由第一跨域类型获取到第一预设评分信息,以及可以由第二跨域类型获取到第二预设评分信息。需要说明的是,预设评分信息根据预设评分规则确定,例如,网站层级的跨域类型对应的预设评分信息可以为2分,同一资源定位层级的跨域类型可以为1分,分数越高说明该跨域类型对会话关注度的整体影响越大,分数越低说明该跨域类型对会话关注度的整体影响越小。
优选地,在获取跨域类型对应的预设评分信息之前,可以先判断跨域类型是否为预设跨域类型,当判断出其为预设跨域类型时,根据预设跨域类型与预设评分信息的对应关系获取跨域类型对应的预设评分信息,否则当判断出其不为预设跨域类型时,则可以在跨域类型表中自定义该跨域类型,并在评分信息表中自定义该跨域类型对应的评分信息,在自定义完评分信息之后获取该跨域类型对应的自定义评分信息。
确定单元60用于根据第一跨域次数和第二跨域次数以及第一预设评分信息和第二预设评分信息确定跨域类型对应的跨域总评分LC信息。
其中,跨域总评分(Leap Count,简称LC)信息可以通过以下公式计算得到:LC=nX+mY,其中,n表示第一跨域次数,m表示第二跨域次数,X表示第一预设评分信息,Y表示第二预设评分信息。
需要说明的是,上述计算公式仅仅用于示例,在本发明实施例中,跨域总评分LC信息还可以根据跨域类型的跨域次数以及跨域类型的预设评分信息的其他运算形式确定。
计算单元40根据跨域总评分LC信息和会话网页浏览数计算会话的会话专注指标。
在本发明实施例中,可以通过将跨域总评分LC信息和会话网页浏览数运用多种计算方式确定会话专注度(即会话专注指标)。
优选地,计算单元40可以同过计算会话网页浏览PV数占跨域总评分LC信息的比例以确定会话的会话专注度,即Z=PV/LC,其中,Z表示会话专注度。当会话网页浏览PV数大小一定时,如果跨域总评分LC信息越大,则会话专注度越小,会话专注度越小说明网站的内容吸引力越小,并且网站的导航能力也越差;否则当会话网页浏览PV数大小一定时,如果跨域总评分LC信息越小,则会话专注度越大,会话专注度越大说明网站的内容吸引力越大,并且网站的导航能力也越好。
这样,通过上述定量计算可以准确地得到会话专注度,并根据会话专注度准确地把握网站的内容吸引力情况和导航的导航能力,进而对不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在计算会话网页浏览数占跨域总评分LC信息的比例以确定会话的会话专注指标之后,该数据处理装置还可以包括通过第四获取单元、判断单元、第二确定单元、第三确定单元、第五获取单元和第四确定单元确定在线访问平台的用户专注度,其中,用户专注度是指在线访问平移台在预设时间段内的所有会话的整体专注水平:
第四获取单元用于获取会话的会话专注指标阈值。
会话专注指标阈值为预先设定的,获取会话的会话专注指标阈值之后,可以将上述步骤确定的会话专注度(会话专注指标)与之比较,进而确定会话专注度(会话专注指标)对应的会话是否为专注会话。
判断单元用于判断会话的会话专注指标是否大于会话的会话专注指标阈值。
第二确定单元用于如果判断出会话的会话专注指标大于会话的会话专注指标阈值,则确定会话为专注会话。
第三确定单元用于如果判断出会话的会话专注指标不大于会话的会话专注指标阈值,则确定会话为非专注会话。
第五获取单元用于获取在线访问平台在预设时间段内的专注会话的次数和会话的总次数。其中,会话的总次数为专注会话的次数与非专注会话的次数之和。
第四确定单元用于计算专注会话的次数占会话的总次数比例以确定在线访问平台的用户专注度。
具体地,当用户专注度大时,说明专注会话的次数占的比例较大,当用户专注度小时,说明专注会话的次数占的比例较小。
由于检测会话专注度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话专注度,再确定多个会话中专注会话的比例,即用户专注度,避免了仅仅检测会话专注度的偶然性,进而达到了检测结果更准确的效果。
从以上的描述中,可以看出,本发明实现了解决了相关技术中无法检测在线访问中用户访问的专注水平的问题,进而达到了自动检测在线访问中用户访问的专注水平的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于在线访问的数据处理方法,其特征在于,包括:
获取用户使用在线访问平台时产生的会话;
检测所述会话的会话页面浏览数;
获取所述用户在所述会话中的跨域信息;以及
根据所述会话页面浏览数和所述跨域信息计算所述会话的会话专注指标。
2.根据权利要求1所述的数据处理方法,其特征在于,
获取用户使用在线访问平台时产生的会话包括:获取所述用户使用所述在线访问平台时产生的所述会话的会话开始时间;获取所述用户使用所述在线访问平台时产生的所述会话的会话结束时间,
检测所述会话的会话页面浏览数包括:检测所述会话在所述会话开始时间和所述会话结束时间之间产生的会话页面浏览数,
获取所述用户在所述会话中的跨域信息包括:当检测所述会话在所述会话开始时间和所述会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取所述用户在所述会话中的跨域信息。
3.根据权利要求1所述的数据处理方法,其特征在于,所述跨域信息包括跨域类型和所述跨域类型对应的跨域次数,其中,所述跨域类型包括第一跨域类型和第二跨域类型,所述跨域次数包括所述第一跨域类型对应的第一跨域次数和所述第二跨域类型对应的第二跨域次数,在获取所述用户在所述会话中的跨域信息之后,所述数据处理方法还包括:
根据预设跨域类型与预设评分信息的对应关系获取所述跨域类型对应的预设评分信息,其中,由所述第一跨域类型获取到第一预设评分信息,由所述第二跨域类型获取到第二预设评分信息;以及
根据所述第一跨域次数和所述第二跨域次数以及所述第一预设评分信息和所述第二预设评分信息确定所述跨域类型对应的跨域总评分LC信息,
其中,根据所述会话网页浏览数和所述跨域信息计算所述会话的会话专注指标包括:根据所述跨域总评分LC信息和所述会话网页浏览数计算所述会话的会话专注指标。
4.根据权利要求3所述的数据处理方法,其特征在于,根据所述跨域总评分LC信息和所述会话网页浏览数计算所述会话的会话专注指标包括:计算所述会话网页浏览数占所述跨域总评分LC信息的比例以确定所述会话的会话专注指标。
5.根据权利要求4所述的数据处理方法,其特征在于,在计算所述会话网页浏览数占所述跨域总评分LC信息的比例以确定所述会话的会话专注指标之后,所述数据处理方法还包括:
获取所述会话的会话专注指标阈值;
判断所述会话的会话专注指标是否大于所述会话的会话专注指标阈值;
如果判断出所述会话的会话专注指标大于所述会话的会话专注指标阈值,则确定所述会话为专注会话;
如果判断出所述会话的会话专注指标不大于所述会话的会话专注指标阈值,则确定所述会话为非专注会话;
获取所述在线访问平台在预设时间段内的所述专注会话的次数和所述会话的总次数;以及
计算所述专注会话的次数占所述会话的总次数比例以确定所述在线访问平台的用户专注度。
6.一种用于在线访问的数据处理装置,其特征在于,包括:
第一获取单元,用于获取用户使用在线访问平台时产生的会话;
检测单元,用于检测所述会话的会话页面浏览数;
第二获取单元,用于获取所述用户在所述会话中的跨域信息;以及
计算单元,用于根据所述会话页面浏览数和所述跨域信息计算所述会话的会话专注指标。
7.根据权利要求6所述的数据处理装置,其特征在于,
所述第一获取单元包括:第一获取模块,用于获取所述用户使用所述在线访问平台时产生的所述会话的会话开始时间;第二获取模块,用于获取所述用户使用所述在线访问平台时产生的所述会话的会话结束时间,
所述检测单元还用于检测所述会话在所述会话开始时间和所述会话结束时间之间产生的会话页面浏览数,
所述第二获取单元还用于当检测所述会话在所述会话开始时间和所述会话结束时间之间的会话页面浏览数大于预设会话页面浏览数时,获取所述用户在所述会话中的跨域信息。
8.根据权利要求6所述的数据处理装置,其特征在于,所述跨域信息包括跨域类型和所述跨域类型对应的跨域次数,其中,所述跨域类型包括第一跨域类型和第二跨域类型,所述跨域次数包括所述第一跨域类型对应的第一跨域次数和所述第二跨域类型对应的第二跨域次数,所述数据处理装置还包括:
第三获取单元,用于在获取所述用户在所述会话中的跨域信息之后,根据预设跨域类型与预设评分信息的对应关系获取所述跨域类型对应的预设评分信息,其中,由所述第一跨域类型获取到第一预设评分信息,由所述第二跨域类型获取到第二预设评分信息;以及
第一确定单元,用于根据所述第一跨域次数和所述第二跨域次数以及所述第一预设评分信息和所述第二预设评分信息确定所述跨域类型对应的跨域总评分LC信息,
其中,所述计算单元还用于根据所述跨域总评分LC信息和所述会话网页浏览数计算所述会话的会话专注指标。
9.根据权利要求8所述的数据处理装置,其特征在于,所述计算单元还用于计算所述会话网页浏览数占所述跨域总评分LC信息的比例以确定所述会话的会话专注指标。
10.根据权利要求9所述的数据处理装置,其特征在于,在计算所述会话网页浏览数占所述跨域总评分LC信息的比例以确定所述会话的会话专注指标之后,所述数据处理装置还包括:
第四获取单元,用于获取所述会话的会话专注指标阈值;
判断单元,用于判断所述会话的会话专注指标是否大于所述会话的会话专注指标阈值;
第二确定单元,用于如果判断出所述会话的会话专注指标大于所述会话的会话专注指标阈值,则确定所述会话为专注会话;
第三确定单元,用于如果判断出所述会话的会话专注指标不大于所述会话的会话专注指标阈值,则确定所述会话为非专注会话;
第五获取单元,用于获取所述在线访问平台在预设时间段内的所述专注会话的次数和所述会话的总次数;以及
第四确定单元,用于计算所述专注会话的次数占所述会话的总次数比例以确定所述在线访问平台的用户专注度。
CN201310723886.8A 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置 Active CN103678667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310723886.8A CN103678667B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310723886.8A CN103678667B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN103678667A true CN103678667A (zh) 2014-03-26
CN103678667B CN103678667B (zh) 2017-10-27

Family

ID=50316211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310723886.8A Active CN103678667B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103678667B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN102541892A (zh) * 2010-12-22 2012-07-04 北京凯思昊鹏软件工程技术有限公司 记录和分析用户行为特征的方法
CN102999634A (zh) * 2012-12-18 2013-03-27 百度在线网络技术(北京)有限公司 基于浏览器数据的用户导航推荐方法、***及云端服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541892A (zh) * 2010-12-22 2012-07-04 北京凯思昊鹏软件工程技术有限公司 记录和分析用户行为特征的方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN102999634A (zh) * 2012-12-18 2013-03-27 百度在线网络技术(北京)有限公司 基于浏览器数据的用户导航推荐方法、***及云端服务器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BB7290: "网站的迷失度度量", 《HTTP://WWW.CHINAZ.COM/WEB/2011/0511/179168.SHTML》 *
曾丽芳等: "基于web日志和网页特征内容的用户兴趣度计算", 《微处理机》 *
朱志国等: "Web使用挖掘技术的分析与研究", 《计算机应用研究》 *
许波 等: "基于行为分析的用户兴趣建模", 《情报杂志》 *

Also Published As

Publication number Publication date
CN103678667B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN104184832B (zh) 网络应用中的数据提交方法及装置
WO2019000710A1 (zh) 页面加载方法、装置和电子设备
US20120240019A1 (en) Method and system for tracking web link usage
CN103678321A (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
CN105956161A (zh) 一种信息推荐方法和装置
CN105868290B (zh) 一种展现搜索结果的方法及装置
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN102724187A (zh) 一种针对网址的安全检测方法及装置
CN106899549A (zh) 一种网络安全检测方法及装置
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和***
WO2014154033A1 (en) Method and apparatus for extracting web page content
Bellido et al. Control-flow patterns for decentralized restful service composition
CN103177096B (zh) 基于文本属性的页面元素定位方法及设备
CN106326734A (zh) 一种检测敏感信息的方法和设备
CN107016282A (zh) 一种信息处理方法及装置
CN102185830B (zh) 一种网络电视浏览器安全过滤的方法及***
CN108322427A (zh) 一种对访问请求进行风控的方法与设备
US11314795B2 (en) User navigation in a target portal
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN109981533A (zh) 一种DDoS攻击检测方法、装置、电子设备及存储介质
CN103544257A (zh) 网页质量检测方法和装置
CN104077119A (zh) 页面对比方法和装置
CN105930385A (zh) 一种数据爬取方法及***
US8909708B2 (en) System and method for confirming authorship of documents
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device used for online access

Effective date of registration: 20190531

Granted publication date: 20171027

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20171027