CN107895011A - 会话信息的处理方法、***、存储介质和电子设备 - Google Patents

会话信息的处理方法、***、存储介质和电子设备 Download PDF

Info

Publication number
CN107895011A
CN107895011A CN201711112871.2A CN201711112871A CN107895011A CN 107895011 A CN107895011 A CN 107895011A CN 201711112871 A CN201711112871 A CN 201711112871A CN 107895011 A CN107895011 A CN 107895011A
Authority
CN
China
Prior art keywords
session
session information
historical
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711112871.2A
Other languages
English (en)
Other versions
CN107895011B (zh
Inventor
周宜兵
郑佰云
邢钦华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Network Technology Shanghai Co Ltd filed Critical Ctrip Travel Network Technology Shanghai Co Ltd
Priority to CN201711112871.2A priority Critical patent/CN107895011B/zh
Publication of CN107895011A publication Critical patent/CN107895011A/zh
Application granted granted Critical
Publication of CN107895011B publication Critical patent/CN107895011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了会话信息的处理方法、***、存储介质和电子设备,其中方法包括:接收网站用户会话产生的会话信息,分别获取该会话信息的非注册身份标识、注册身份标识和其余签名字段;依次判断该会话信息的非注册身份标识、注册身份标识和其余签名字段是否分别与数据库中的历史会话的非注册身份标识、注册身份标识和其余签名字段相匹配;并判断该会话信息与所匹配的历史会话的时间字段差值是否在一个会话周期内,若是则将该会话信息合并至所匹配的历史会话,若否则为该会话信息创建一个独立会话。本发明通过多维度会话信息识别处理,能准确地从海量数据中将体现用户行为数据的会话信息归集在同一个用户会话中,为风控大数据分析提供数据基础。

Description

会话信息的处理方法、***、存储介质和电子设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种会话信息的处理方法、***、存储介质和电子设备。
背景技术
用户会话(session)是记录用户在使用网站产品或服务时产生的一些行为数据的集合,包括用户的页面浏览、点击、交易等行为数据。
目前,有越来越多针对用户行为进行大数据分析的方法和***,如商品推荐***,广告***等。用来帮助公司改善用户体验,增强产品功能,提高盈利能力。但对于用户行为数据的识别,整合多以用户ID这一维度为依据进行处理。也就是说,必须是注册用户和登录用户的行为数据才能被正确的收集和识别,且无法对跨设备(同时段在pc端和移动端使用产品或服务)的用户行为进行处理。
在风控领域,可以从用户会话中,通过大数据分析引擎分析出譬如是否有交易欺诈,交易违规,用户交易环境等数据给规则引擎/反欺诈***做参考。从而为业务***提供更多,更全的,可靠的用户多维度信息,帮助业务***,如反欺诈***提高准确度和智能度。
但由于目前针对用户会话信息的处理维度单一,导致最终形成的分析数据不够全面,准确性不足,不能很好地为风控大数据分析提供数据基础。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
针对现有技术中的缺陷,本发明要解决的问题在于,如何多维度识别处理用户会话信息,从海量数据中将同一用户的行为数据归集在同一个会话中。
根据本发明的一个方面,提供一种会话信息的处理方法,所述方法包括:步骤S101、接收网站用户会话产生的会话信息,所述会话信息至少携带该用户的非注册身份标识;步骤S102、识别所述会话信息的非注册身份标识是否与数据库中的一历史会话的非注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S103;步骤S103、判断所述会话信息是否携带该用户的注册身份标识,若是则执行步骤S104,若否则执行步骤S105;步骤S104、识别所述会话信息的注册身份标识是否与数据库中的一历史会话的注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S105;步骤S105、获取所述会话信息的客户端类型,根据所述客户端类型获取所述会话信息的各签名字段与数据库中历史会话的各签名字段的相似度,若存在与所述会话信息的签名字段的相似度高于阈值的历史会话则执行步骤S106,若不存在则执行步骤S108;步骤S106、判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在一个会话周期内,若是则执行步骤S107,若否则执行步骤S108;步骤S107、将所述会话信息合并至所匹配的所述历史会话;步骤S108、为所述会话信息创建一个独立会话。
优选地,所述步骤S105包括:步骤S1051、获取所述会话信息的客户端类型,所述客户端类型包括网页端和移动端;步骤S1052、根据所述客户端类型获取所述会话信息的各签名字段的权重值;步骤S1053、遍历数据库中的历史会话,获取各历史会话的客户端类型,以及各历史会话的各签名字段在其相应的客户端类型下的权重值;步骤S1054、判断所述会话信息与历史会话的相匹配的签名字段的权重值相加之和是否大于阈值,若是则执行步骤S106,若否则执行步骤S108。
优选地,所述签名字段包括设备识别号、手机识别号。
优选地,所述步骤S101包括:步骤S1011、接收网站内多个用户会话产生的多组会话信息,每组会话信息至少携带该用户的非注册身份标识;步骤S1012、根据每组会话信息的非注册身份标识,将各组会话信息分配至不同的工作线程,由不同的工作线程并行实时步骤S103至步骤S108。
优选地,所述步骤S1011中,为各组会话信息分配编号,采用哈希算法取模运算将不同编号的会话信息分配至对应的工作线程。
优选地,所述历史会话包括本地缓存数据库中的处于活跃状态的历史会话,以及远程同步数据库中的处于过期状态的历史会话。
优选地,所述步骤S106中,判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在30分钟内,若是则判定所述会话信息与所匹配的所述历史会话位于一个会话周期,执行步骤S107,若否则执行步骤S108。
根据本发明的另一个方面,提供一种会话信息的处理***,所述***包括:会话获取模块,用于接收网站用户会话产生的会话信息,所述会话信息至少携带该用户的非注册身份标识;非注册身份标识识别模块,用于识别所述会话信息的非注册身份标识是否与数据库中的一历史会话的非注册身份标识匹配,若是则触发会话合并模块,若否则触发注册身份标识识别模块;注册身份标识识别模块,用于识别所述会话信息的注册身份标识是否与数据库中的一历史会话的注册身份标识匹配,若是则触发会话合并模块,若否则触发签名字段识别模块;签名字段识别模块,用于获取所述会话信息的客户端类型,根据所述客户端类型获取所述会话信息的各签名字段与数据库中历史会话的各签名字段的相似度,筛选出与所述会话信息的签名字段的相似度高于阈值的历史会话,并触发会话合并模块;会话合并模块,用于判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在一个会话周期内,若是则将所述会话信息合并至所匹配的所述历史会话,若否则为所述会话信息创建一个独立会话。
优选地,上述的会话信息的处理***还包括:本地存储模块,用于缓存处于活跃状态的历史会话;远程同步模块,用于缓存处于过期状态的历史会话;所述本地存储模块和所述远程同步模块均与所述非注册身份标识识别模块、所述注册身份标识识别模块和所述签名字段识别模块通信连接。
优选地,上述的会话信息的处理***还包括:过期处理模块,用于定期从所述本地存储模块中提取过期的历史会话,发送至所述远程同步模块的工作队列。
根据本发明的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的会话信息的处理方法的步骤。
根据本发明的另一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的会话信息的处理方法的步骤。
有鉴于此,本发明与现有技术相比的有益效果在于:
1)本发明通过多维度的用户会话信息识别处理,能准确地从海量数据中,按照关键字段将同一用户行为数据归集在同一个用户会话中;
2)能实时处理每天数十亿的海量数据,能实时观察到整个用户的行为轨迹,并且对机器性能要求低;
3)为风控大数据分析提供数据基础,并提供部分数据给反欺诈***使用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明示例性实施例中一种会话信息的处理方法的流程示意图;
图2示出本发明示例性实施例中识别会话信息的签名字段与历史会话的签名字段的相似度的步骤示意图;
图3示出本发明示例性实施例中一种会话信息的处理***的组成模块示意图;
图4示出本发明示例性实施例中一种计算机可读存储介质的示意图;
图5示出本发明示例性实施例中一种电子设备的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出实施例中一种会话信息的处理方法的流程示意图。参照图1所示,本实施例中会话信息的处理方法主要包括如下步骤:
步骤S101、接收网站用户会话产生的会话信息,该会话信息至少携带该用户的非注册身份标识。其中,在网站的统计数据中,用户会话(session)是使用某个特定的IP地址最近(通常指在过去的30分钟里的任何时间)访问这个网站的用户的表现,具体体现为用户的行为,如浏览、搜索、下单等产生的数据的集合。非注册身份标识是指访客ID,每个用户进入网站则会为该用户分配一访客ID,用于唯一标识该用户的身份。
进一步的,步骤S101具体可包括:步骤S1011、接收网站内多个用户会话产生的多组会话信息,每组会话信息至少携带该用户的非注册身份标识;步骤S1012、根据每组会话信息的非注册身份标识,将各组会话信息分配至不同的工作线程,由不同的工作线程并行实时步骤S103至步骤S108。其中,在步骤S1011中,为各组会话信息分配编号,采用哈希算法取模运算将不同编号的会话信息分配至对应的工作线程。
具体来说,分配会话信息时,首先会查看某一工作线程是否处理过与待分配的会话信息的访客ID相同的其余会话信息,若是则将带有该访客ID的会话信息分配至已处理过该访客ID的其余会话信息的工作线程,以加快识别处理进度。若否则采用哈希算法进行分配。例如总共有20组待分配的会话信息,分别编号为1~20;工作线程总共有8组,分别编号为第一组~第八组。则采用各组会话信息的编号与8作取模运算,得到的值即为该组会话信息对应的工作线程。之后,各个工作线程根据其待处理队列中的会话信息,采用下面的步骤分别进行识别处理。
步骤S102、识别该会话信息的非注册身份标识是否与数据库中的一历史会话的非注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S103。其中,历史会话包括本地缓存数据库中的处于活跃状态的历史会话,以及远程同步数据库中的处于过期状态的历史会话。一般来说,当用户在指定时段内没有操作,例如30分钟内无操作,则认为该用户的上一段会话结束,变为过期会话。
步骤S103、判断该会话信息是否携带该用户的注册身份标识,若是则执行步骤S104,若否则执行步骤S105。其中,注册身份标识是指用户ID,即网站的注册用户ID。任何用户(包括非注册用户和注册用户)进入网站均分配访客ID,当网站注册会员登录自己的账户后,则其身份采用用户ID进行标识。
步骤S104、识别该会话信息的注册身份标识是否与数据库中的一历史会话的注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S105。与识别非注册身份标识一样,此处的历史会话也包括本地缓存数据库中的处于活跃状态的历史会话,以及远程同步数据库中的处于过期状态的历史会话。
步骤S105、获取该会话信息的客户端类型,根据客户端类型获取该会话信息的各签名字段与数据库中历史会话的各签名字段的相似度,若存在与该会话信息的签名字段的相似度高于阈值的历史会话则执行步骤S106,若不存在则执行步骤S108。其中,签名字段为识别该会话信息的一些特征字段,包括设备识别号、手机识别号(IMEI)、登陆地等等。当然,上述的访客ID和用户ID也是一段会话信息的特征字段,但因上述步骤已经从访客ID和用户ID维度进行识别,因此此处的签名字段主要指除访客ID和用户ID外的其余能标识该会话信息的特征字段。
具体的,参照图2所示,步骤S105具体包括:步骤S1051、获取该会话信息的客户端类型,所述的客户端类型包括网页端(PC端、H5等等)和移动端(手机APP等)。步骤S1052、根据客户端类型获取该会话信息的各签名字段的权重值。在不同的客户端类型下,各签名字段的权重值有所不同,例如,PC端下设备识别号的权重值为3、登陆地为5;APP端手机识别号的权重值为5、登陆地为3。步骤S1053、遍历数据库中的历史会话,获取各历史会话的客户端类型,以及各历史会话的各签名字段在其相应的客户端类型下的权重值。步骤S1054、判断该会话信息与历史会话的相匹配的签名字段的权重值相加之和是否大于阈值,若是则执行步骤S106,若否则执行步骤S108。此处,阈值可根据实际情况进行设定,本发明对此不作限制。当该会话信息与某一历史会话存在相匹配的签名字段,且其相匹配的签名字段的权重值相加之和大于设定的阈值,则表明该会话信息与该历史会话的签名字段的相似度较高,可判定该会话信息和该历史会话出于同一用户。
步骤S106、判断该会话信息与所匹配的历史会话的时间字段差值是否在一个会话周期内,若是则执行步骤S107,若否则执行步骤S108;步骤S107、将该会话信息合并至所匹配的历史会话;步骤S108、为该会话信息创建一个独立会话。当步骤S102、步骤S104和步骤S105判定出该会话信息的非注册身份标识/注册身份标识/签名字段与某一历史会话的非注册身份标识/注册身份标识/签名字段相匹配,则表明该会话信息与该历史会话来自同一用户的操作行为。在此基础上,判断该会话信息与所匹配的历史会话的时间字段差值是否在一个会话周期内,例如是否在30分钟内,若是则将该会话信息合并至该历史会话,也即将该会话信息与其所匹配的历史会话归集,可以持续地追踪和合并该用户的行为轨迹。若否则表明该会话信息来自一个新用户(或新访客),或者该会话信息不存在处于活跃状态的未过期的历史会话,因此为该会话信息创建一个独立会话,用于存储该用户后续在网站的操作行为所留下的一系列行为轨迹。
本实施例通过多维度地对用户会话信息(session)进行识别处理,能准确地从海量数据中,按照关键字段将同一用户行为数据归集在同一个用户会话中。研究数据表明,采用本实施例的方法,能实时处理每天数十亿的海量数据,能实时观察到整个用户的行为轨迹,并且对机器性能要求低。同时为风控大数据分析提供数据基础,并提供部分数据给反欺诈***使用。
图3示出实施例中一种会话信息的处理***的组成模块示意图。参照图3所示,本实施例的会话信息的处理***包括:
会话获取模块301,用于接收网站用户会话产生的会话信息,会话信息至少携带该用户的非注册身份标识。具体的,一段时间内的网站所有会话信息例如被存储在服务器(kafka)中,会话获取模块301会从服务器中选取指定类型的数据(例如指定为交易类型的数据、指定为浏览类型的数据、指定为机票类型的数据等等),将数据进行统一转化,即转化为待识别处理的标准格式,然后将转化后的数据提供给session处理模块302。
Session处理模块302主要用于对数据进行分发、识别归集以及过期处理。Session处理模块302中包括多个工作者线程303(图中因版图限制仅示意出一个,这不应视为对本发明的限制)。session处理模块302接收到会话信息后,根据会话信息的访客ID或用户ID通过哈希算法选取合适的工作者线程,将数据放入工作者线程的队列中。
在工作者线程303中,具体包括非注册身份标识识别模块3031、注册身份标识识别模块3032和签名字段识别模块3033。非注册身份标识识别模块3031即访客ID识别模块,用于识别会话信息的非注册身份标识(访客ID)是否与数据库中的一历史会话的非注册身份标识匹配。注册身份标识识别模块3032即用户ID识别模块,用于识别会话信息的注册身份标识(用户ID)是否与数据库中的一历史会话的注册身份标识匹配。签名字段识别模块3033用于获取会话信息的客户端类型,根据客户端类型获取会话信息的各签名字段与数据库中历史会话的各签名字段的相似度。
其中,上述的历史会话包括存储于本地缓存31中的处于活跃状态的历史会话,也包括存储于远程数据库32中的处于过期状态的历史会话。本地存储模块304用于对程序处理过程中产生的session进行缓存,建立session处理模块302与本地缓存31之间的通信连接,提供session的查询接口。也就是说,工作者线程303根据接收到的会话信息中的签名字段(包括访客ID、用户ID和其它签名字段)通过本地缓存模块304去本地缓存31中查询有共同签名的字段的历史会话,从中根据session识别方法挑选能匹配的历史会话,将会话信息追加到挑选出的历史会话中,并将会话信息通过本地缓存模块304提供的接口存储或更新到本地缓存31中;如没有符合条件的历史会话则创建一个新的独立会话。进一步的,在碰到特定事件的会话信息(如下单,支付等),会将会话信息发送给session收集模块306去发送;及在处理会话信息中如果会话信息的体积(对象内存占用)过大,会将session按比例分割。
另外,工作者线程303还定时从本地缓存31中提取过期的session并从中删除,将其发送到session远程同步线程的队列里。
远程同步模块305用于将本地过期的session同步到远程数据库32中和对远端的session进行合并处理。具体的,同步线程首先根据接收到的会话信息的签名字段通过远程同步模块305去远程数据库32查询,对查询结果和接收到的会话信息根据session识别方法,判断有没有与之相同的历史会话,有则合并,并将最终的合并结果存储或合并到远程数据库32。
session收集模块306用于定时从远程数据库32中将过期的session收集和接收session处理模块302推送过来的session,然后推送给kafka服务器。具体的,session收集模块306定时从队列中获取工作者线程303发送来的session,通过kafka生产者客户端发送给kafka服务器;并定时从远程数据库32拉取过期的session,然后发送给kafka服务器,并将session状态置为不可用,更新远端session的状态。
进一步的,工作者线程303还包括会话识别模块3034,当筛选出与会话信息匹配的历史会话后,会话识别模块3034判断会话信息与所匹配的历史会话的时间字段差值是否在一个会话周期内,若是则将会话信息合并至所匹配的历史会话,若否则为会话信息新建一个独立会话,然后存入相应的缓存模块中。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述会话信息的处理方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述会话信息的处理方法描述的根据本发明各种示例性实施方式的步骤。
参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品400可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述会话信息的处理方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同***组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述会话信息的处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述会话信息的处理方法。
综上所述,本本发明通过从非注册身份标识、注册身份标识、基于客户端的签名字段等多维度地对用户会话信息(session)进行识别处理,能准确地从海量数据中,按照关键字段将同一用户行为数据归集在同一个用户会话中。研究数据表明,采用本本发明的方法,能实时处理每天数十亿的海量数据,能实时观察到整个用户的行为轨迹,并且对机器性能要求低。同时为风控大数据分析提供数据基础,并提供部分数据给反欺诈***使用。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (12)

1.一种会话信息的处理方法,其特征在于,所述方法包括:
步骤S101、接收网站用户会话产生的会话信息,所述会话信息至少携带该用户的非注册身份标识;
步骤S102、识别所述会话信息的非注册身份标识是否与数据库中的一历史会话的非注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S103;
步骤S103、判断所述会话信息是否携带该用户的注册身份标识,若是则执行步骤S104,若否则执行步骤S105;
步骤S104、识别所述会话信息的注册身份标识是否与数据库中的一历史会话的注册身份标识匹配,若是则执行步骤S106,若否则执行步骤S105;
步骤S105、获取所述会话信息的客户端类型,根据所述客户端类型获取所述会话信息的各签名字段与数据库中历史会话的各签名字段的相似度,若存在与所述会话信息的签名字段的相似度高于阈值的历史会话则执行步骤S106,若不存在则执行步骤S108;
步骤S106、判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在一个会话周期内,若是则执行步骤S107,若否则执行步骤S108;
步骤S107、将所述会话信息合并至所匹配的所述历史会话;
步骤S108、为所述会话信息创建一个独立会话。
2.如权利要求1所述的会话信息的处理方法,其特征在于,所述步骤S105包括:
步骤S1051、获取所述会话信息的客户端类型,所述客户端类型包括网页端和移动端;
步骤S1052、根据所述客户端类型获取所述会话信息的各签名字段的权重值;
步骤S1053、遍历数据库中的历史会话,获取各历史会话的客户端类型,以及各历史会话的各签名字段在其相应的客户端类型下的权重值;
步骤S1054、判断所述会话信息与历史会话的相匹配的签名字段的权重值相加之和是否大于阈值,若是则执行步骤S106,若否则执行步骤S108。
3.如权利要求2所述的会话信息的处理方法,其特征在于,所述签名字段包括设备识别号、手机识别号。
4.如权利要求1所述的会话信息的处理方法,其特征在于,所述步骤S101包括:
步骤S1011、接收网站内多个用户会话产生的多组会话信息,每组会话信息至少携带该用户的非注册身份标识;
步骤S1012、根据每组会话信息的非注册身份标识,将各组会话信息分配至不同的工作线程,由不同的工作线程并行实时步骤S103至步骤S108。
5.如权利要求4所述的会话信息的处理方法,其特征在于,所述步骤S1011中,为各组会话信息分配编号,采用哈希算法取模运算将不同编号的会话信息分配至对应的工作线程。
6.如权利要求1所述的会话信息的处理方法,其特征在于,所述历史会话包括本地缓存数据库中的处于活跃状态的历史会话,以及远程同步数据库中的处于过期状态的历史会话。
7.如权利要求1所述的会话信息的处理方法,其特征在于,所述步骤S106中,判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在30分钟内,若是则判定所述会话信息与所匹配的所述历史会话位于一个会话周期,执行步骤S107,若否则执行步骤S108。
8.一种会话信息的处理***,其特征在于,所述***包括:
会话获取模块,用于接收网站用户会话产生的会话信息,所述会话信息至少携带该用户的非注册身份标识;
非注册身份标识识别模块,用于识别所述会话信息的非注册身份标识是否与数据库中的一历史会话的非注册身份标识匹配,若是则触发会话合并模块,若否则触发注册身份标识识别模块;
注册身份标识识别模块,用于识别所述会话信息的注册身份标识是否与数据库中的一历史会话的注册身份标识匹配,若是则触发会话合并模块,若否则触发签名字段识别模块;
签名字段识别模块,用于获取所述会话信息的客户端类型,根据所述客户端类型获取所述会话信息的各签名字段与数据库中历史会话的各签名字段的相似度,筛选出与所述会话信息的签名字段的相似度高于阈值的历史会话,并触发会话合并模块;
会话合并模块,用于判断所述会话信息与所匹配的所述历史会话的时间字段差值是否在一个会话周期内,若是则将所述会话信息合并至所匹配的所述历史会话,若否则为所述会话信息创建一个独立会话。
9.如权利要求8所述的会话信息的处理***,其特征在于,还包括:
本地存储模块,用于缓存处于活跃状态的历史会话;
远程同步模块,用于缓存处于过期状态的历史会话;
所述本地存储模块和所述远程同步模块均与所述非注册身份标识识别模块、所述注册身份标识识别模块和所述签名字段识别模块通信连接。
10.如权利要求9所述的处理***,其特征在于,还包括:
过期处理模块,用于定期从所述本地存储模块中提取过期的历史会话,发送至所述远程同步模块的工作队列。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述的会话信息的处理方法的步骤。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7任一项所述的会话信息的处理方法的步骤。
CN201711112871.2A 2017-11-03 2017-11-03 会话信息的处理方法、***、存储介质和电子设备 Active CN107895011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112871.2A CN107895011B (zh) 2017-11-03 2017-11-03 会话信息的处理方法、***、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112871.2A CN107895011B (zh) 2017-11-03 2017-11-03 会话信息的处理方法、***、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN107895011A true CN107895011A (zh) 2018-04-10
CN107895011B CN107895011B (zh) 2020-05-26

Family

ID=61805203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112871.2A Active CN107895011B (zh) 2017-11-03 2017-11-03 会话信息的处理方法、***、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN107895011B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446183A (zh) * 2018-04-13 2018-08-24 广东亿迅科技有限公司 基于消息分发的处理方法及装置
CN108549691A (zh) * 2018-04-13 2018-09-18 郑州云海信息技术有限公司 一种数据库会话跟踪及分析方法及其装置
CN109003605A (zh) * 2018-07-02 2018-12-14 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109118779A (zh) * 2018-10-12 2019-01-01 东软集团股份有限公司 交通违章信息识别方法、设备及可读存储介质
CN109257448A (zh) * 2018-11-21 2019-01-22 网易(杭州)网络有限公司 一种会话信息同步的方法及装置、电子设备、存储介质
CN110008081A (zh) * 2019-02-21 2019-07-12 阿里巴巴集团控股有限公司 一种交互数据处理方法及装置
CN110502549A (zh) * 2019-07-08 2019-11-26 招联消费金融有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN111459950A (zh) * 2019-01-18 2020-07-28 北京字节跳动网络技术有限公司 数据更新方法和装置
CN116597855A (zh) * 2023-07-18 2023-08-15 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备
CN116881429A (zh) * 2023-09-07 2023-10-13 四川蜀天信息技术有限公司 一种基于多租户的对话模型交互方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387135A (zh) * 2011-09-29 2012-03-21 北京邮电大学 一种基于用户身份过滤的方法以及防火墙
US20140143230A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Contextual search history in collaborative archives
CN106973062A (zh) * 2017-04-27 2017-07-21 努比亚技术有限公司 一种会话管理方法以及服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387135A (zh) * 2011-09-29 2012-03-21 北京邮电大学 一种基于用户身份过滤的方法以及防火墙
US20140143230A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Contextual search history in collaborative archives
CN106973062A (zh) * 2017-04-27 2017-07-21 努比亚技术有限公司 一种会话管理方法以及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
羊淑英等: "统一会话管理平台的研究", 《西昌学院学报(自然科学版)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446183A (zh) * 2018-04-13 2018-08-24 广东亿迅科技有限公司 基于消息分发的处理方法及装置
CN108549691A (zh) * 2018-04-13 2018-09-18 郑州云海信息技术有限公司 一种数据库会话跟踪及分析方法及其装置
CN108549691B (zh) * 2018-04-13 2021-09-17 郑州云海信息技术有限公司 一种数据库会话跟踪及分析方法及其装置
CN109003605A (zh) * 2018-07-02 2018-12-14 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109003605B (zh) * 2018-07-02 2020-04-21 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109118779A (zh) * 2018-10-12 2019-01-01 东软集团股份有限公司 交通违章信息识别方法、设备及可读存储介质
CN109257448A (zh) * 2018-11-21 2019-01-22 网易(杭州)网络有限公司 一种会话信息同步的方法及装置、电子设备、存储介质
CN109257448B (zh) * 2018-11-21 2021-07-09 网易(杭州)网络有限公司 一种会话信息同步的方法及装置、电子设备、存储介质
CN111459950A (zh) * 2019-01-18 2020-07-28 北京字节跳动网络技术有限公司 数据更新方法和装置
CN110008081A (zh) * 2019-02-21 2019-07-12 阿里巴巴集团控股有限公司 一种交互数据处理方法及装置
CN110008081B (zh) * 2019-02-21 2023-02-24 创新先进技术有限公司 一种交互数据处理方法及装置
CN110502549A (zh) * 2019-07-08 2019-11-26 招联消费金融有限公司 用户数据处理方法、装置、计算机设备和存储介质
CN116597855A (zh) * 2023-07-18 2023-08-15 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备
CN116597855B (zh) * 2023-07-18 2023-09-29 深圳市则成电子股份有限公司 自适应降噪的方法、装置和计算机设备
CN116881429A (zh) * 2023-09-07 2023-10-13 四川蜀天信息技术有限公司 一种基于多租户的对话模型交互方法、装置及存储介质
CN116881429B (zh) * 2023-09-07 2023-12-01 四川蜀天信息技术有限公司 一种基于多租户的对话模型交互方法、装置及存储介质

Also Published As

Publication number Publication date
CN107895011B (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN107895011A (zh) 会话信息的处理方法、***、存储介质和电子设备
CN104615852B (zh) 针对保障网上预约挂号秩序及提高号源使用效率的方法
Shi et al. Predicting US primary elections with Twitter
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理***和方法
CN110149806A (zh) 堆栈数据结构的数字助理处理
CN108062629A (zh) 交易事件的处理方法、终端设备及介质
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈***
CN106888194A (zh) 基于分布式调度的智能电网it资产安全监测***
CN113469663A (zh) 一种结合人工智能的智慧业务信息分析方法及***
CN109670843A (zh) 投诉业务的数据处理方法、装置、计算机设备及存储介质
CN109784388A (zh) 窃电用户识别方法和装置
CN113254833B (zh) 一种基于产教融合的信息推送的方法及服务***
CN103218431A (zh) 一种能识别网页信息自动采集的***与方法
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CN111953757A (zh) 基于云计算和智能设备交互的信息处理方法及云端服务器
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN109345417A (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN103530312B (zh) 使用多方面足迹的用户标识的方法和***
CN108897800A (zh) 一种管理日志信息的方法、装置及***
CN110909195A (zh) 基于区块链的图片标注方法、装置及存储介质、服务器
CN205845090U (zh) 电力市场主体信用评价***
CN113362852A (zh) 一种用户属性识别方法和装置
CN107562768A (zh) 一种数据处理过程动态回溯追踪方法
CN109871380A (zh) 一种基于Redis的人群包应用方法及***
CN107294905A (zh) 一种识别用户的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant