CN111178421B - 检测用户状态的方法、装置、介质以及电子设备 - Google Patents
检测用户状态的方法、装置、介质以及电子设备 Download PDFInfo
- Publication number
- CN111178421B CN111178421B CN201911352487.9A CN201911352487A CN111178421B CN 111178421 B CN111178421 B CN 111178421B CN 201911352487 A CN201911352487 A CN 201911352487A CN 111178421 B CN111178421 B CN 111178421B
- Authority
- CN
- China
- Prior art keywords
- user
- state
- cluster
- users
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了一种检测用户状态的方法、装置、介质以及电子设备。其中的方法包括:根据多个待检测用户的业务数据,获取所述多个待检测用户各自的业务行为特征信息;对所述多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇;获取所述簇的簇代表用户;根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态;根据所述簇代表用户的用户状态,确定所述簇代表用户所在的簇中的各待检测用户的用户状态。本公开提供的技术方案有利于提高用户状态检测结果的准确性。
Description
技术领域
本公开涉及网络技术,尤其是一种检测用户状态的方法、检测用户状态的装置、存储介质以及电子设备。
背景技术
在一些业务领域中,业务提供方通常会借助APP(应用程序)、网站以及客户端等形式,为用户提供业务服务。对于业务提供方而言,当前接受其业务服务的每一个用户通常分别处于一个用户生命周期中的某一个用户状态。
业务提供方往往会存在获知各用户当前所处的用户状态的需求,以便于为不同的用户提供不同的业务服务。
如何准确的检测出用户当前所处的用户状态,以便于对用户提供恰当的业务服务,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种检测用户状态的方法、检测用户状态的装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供了一种检测用户状态的方法,该方法包括:根据多个待检测用户的业务数据,获取所述多个待检测用户各自的业务行为特征信息;对所述多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇;获取所述簇的簇代表用户;根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态;根据所述簇代表用户的用户状态,确定所述簇代表用户所在的簇中的各待检测用户的用户状态。
在本公开一实施方式中,所述根据多个待检测用户的业务数据,获取所述多个待检测用户的业务行为特征信息,包括:根据多个待检测用户的业务数据,获取多个待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的至少一个。
在本公开又一实施方式中,所述获取所述簇的簇代表用户,包括:从所述至少一个簇中筛选出包含的簇节点数量不超过预定数量的簇;将所述筛选出的簇的中心节点对应的待检测用户作为簇代表用户。
在本公开再一实施方式中,所述根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态,包括:将所述簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给所述分类器;根据所述分类器输出的分类预测结果,确定所述簇代表用户的用户状态。
在本公开再一实施方式中,所述方法还包括:分别获取各用户状态的种子用户的业务数据;根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息;根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本;利用所述多个训练样本对所述分类器进行训练;其中,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
在本公开再一实施方式中,所述方法在所述分别获取各用户状态的种子用户的业务数据的步骤之前,还包括:根据预先设置的各用户状态各自对应的状态标志信息或者状态条件,确定各用户的业务数据中包含有所述状态标志信息或者业务数据满足所述状态条件的用户,并将所述确定出的用户作为相应用户状态的种子用户。
在本公开再一实施方式中,所述根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息,包括:对于任一用户状态的任一种子用户而言,根据该种子用户的业务数据中的位于所述状态标志信息时间点之前的业务数据或者满足所述状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。
在本公开再一实施方式中,所述根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本,包括:对于任一状态标志信息或者任一状态条件而言,根据该标志性行为信息或者该状态条件对应的用户状态,为相应的种子用户的业务行为特征信息设置用户状态标签,生成训练样本。
在本公开再一实施方式中,所述利用所述多个训练样本对所述分类器进行训练,包括:将各用户状态各自对应的训练样本分别提供给所述分类器;根据所述分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,调整所述分类器的模型参数;其中,提供给所述分类器的各用户状态各自对应的训练样本的数量相同。
根据本公开实施例的另一个方面,提供了一种检测用户状态的装置,该装置包括:获取信息模块,用于根据多个待检测用户的业务数据,获取所述多个待检测用户各自的业务行为特征信息;聚类处理模块,用于对所述多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇;获取代表用户模块,用于获取所述簇的簇代表用户;第一确定状态模块,用于根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态;第二确定状态模块,用于根据所述簇代表用户的用户状态,确定所述簇代表用户所在的簇中的各待检测用户的用户状态。
在本公开一实施方式中,所述获取信息模块进一步用于:根据多个待检测用户的业务数据,获取多个待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的至少一个。
在本公开又一实施方式中,所述获取代表用户模块进一步用于:从所述至少一个簇中筛选出包含的簇节点数量不超过预定数量的簇;将所述筛选出的簇的中心节点对应的待检测用户作为簇代表用户。
在本公开再一实施方式中,所述第一确定状态模块进一步用于:将所述簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给所述分类器;根据所述分类器输出的分类预测结果,确定所述簇代表用户的用户状态。
在本公开再一实施方式中,所述装置还包括:训练模块,用于:分别获取各用户状态的种子用户的业务数据;根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息;根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本;利用所述多个训练样本对所述分类器进行训练;其中,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
在本公开再一实施方式中,所述装置还包括:确定种子用户模块,用于根据预先设置的各用户状态各自对应的状态标志信息或者状态条件,确定各用户的业务数据中包含有所述状态标志信息或者业务数据满足所述状态条件的用户,并将所述确定出的用户作为相应用户状态的种子用户。
在本公开再一实施方式中,所述训练模块进一步用于:对于任一用户状态的任一种子用户而言,根据该种子用户的业务数据中的位于所述状态标志信息时间点之前的业务数据或者满足所述状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。
在本公开再一实施方式中,所述训练模块进一步用于:对于任一状态标志信息或者任一状态条件而言,根据该标志性行为信息或者该状态条件对应的用户状态,为相应的种子用户的业务行为特征信息设置用户状态标签,生成训练样本。
在本公开再一实施方式中,所述训练模块进一步用于:将各用户状态各自对应的训练样本分别提供给所述分类器;根据所述分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,调整所述分类器的模型参数;其中,提供给所述分类器的各用户状态各自对应的训练样本的数量相同。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述检测用户状态的方法。
根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述检测用户状态的方法。
基于本公开上述实施例提供的一种检测用户状态的方法和装置,通过对多个待检测用户各自的业务行为特征信息进行聚类处理,可以使具有微小变化(如微小的天数变化等)的业务行为特征信息的待检测用户聚集在一起;通过将聚类处理获得簇中的簇代表用户的用户状态作为簇代表用户所在簇中的各待检测用户的用户状态,可以避免属于同一个簇的两个待检测用户的业务行为特征信息的微小变化,使这两个待检测用户的用户状态发生改变的现象,从而有利于使本公开的技术方案具有业务行为特征信息的微小变化对用户状态的影响的抵抗性。由此可知,本公开提供的技术方案有利于提高用户状态检测结果的准确性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的检测用户状态的方法一个实施例的流程图;
图3为本公开的聚类处理获得的一个簇的一个实施例的示意图;
图4为本公开的训练分类器的一个实施例的流程图;
图5为本公开的检测用户状态的装置一个实施例的结构示意图;
图6为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在检测用户状态的过程中,有时会存在业务行为特征信息很相似的两个不同的用户,检测获得的用户状态却不相同的现象。即业务行为特征信息的微小变化(如天数的微小变化等),可能会带来用户状态的改变。该现象对用户状态检测的准确性产生了不良影响。
在检测用户状态的过程中,如果能够避免业务行为特征信息的微小变化所带来的用户状态改变的现象,则有利于提高用户状态检测结果的准确性,从而有利于使业务提供方为用户提供更恰当的业务服务。
示例性概述
本公开提供的检测用户状态的技术应用在房产领域的一个例子,如图1所示。
在图1中,房屋租售业务提供方通过服务器102向各用户提供房屋租售业务服务。假定用户101的智能移动电话100中安装有用于房屋租售的APP。用户101在具有房屋租售需求时,打开智能移动电话100中的该款APP,房屋租售业务提供方的服务器102向智能移动电话100推送APP的主页面,之后,房屋租售业务提供方的服务器102可以根据用户101的点击或者滑屏等操作向智能移动电话100推送相应的页面信息。业务提供方的服务器102可以根据用户101使用该款APP的历史操作日志,获得用户101的业务行为特征信息,并利用用户101的业务行为特征信息确定用户101当前所处的用户状态,以便于为用户101提供更精准的房屋租售业务服务,最终有利于实现为用户101推荐满足其需求的房屋的目的。
示例性方法
图2为本公开的检测用户状态的方法一个实施例的流程示意图。如图2所示的实施例的方法包括步骤:S200、S201、S202、S203以及S204。下面对各步骤分别进行说明。
S200、根据多个待检测用户的业务数据,获取多个待检测用户的业务行为特征信息。
本公开中的待检测用户可以是指需要进行用户状态检测的用户。本公开中的待检测用户的业务数据可以包括:针对一业务提供方提供的业务,基于用户执行的各种动作而形成的信息。用户执行的各种动作可以包括:线上动作或者线下动作。线上动作可以是指基于用户的网络访问操作而形成的动作(例如,浏览、留言或者登录等)。线下动作可以是指用户的实体动作(例如,实地看房或者来电咨询或者来店咨询等)。用户的线下动作可以由业务提供方的工作人员(如房产经纪人等)录入在相应的***中,从而形成该用户的业务数据。
在一个例子中,一个待检测用户的业务数据可以包括:业务提供方的日志中的与该待检测用户相关的所有记录。本公开中的待检测用户的业务行为特征信息可以是指用于描述该待检测用户的与业务提供方提供的业务相关的行为的信息。
本公开可以从业务提供方的数据仓库中获取最近一时间段(如最近30天)内执行了相应动作的用户的业务数据,获取到的业务数据即为待检测用户的业务数据。另外,本公开也可以通过其他方式获得待检测用户的业务数据。例如,通过检索的方式(如利用待检测用户的标识进行检索等)从业务提供方的数据仓库中获得各待检测用户的业务数据。
对于任一待检测用户而言,本公开可以通过查找该待检测用户的业务数据中的相应字段,并对查找到的相应字段进行计算、统计汇总(如日期计算、次数统计、流量汇总等)等处理,获得该待检测用户的业务行为特征信息。待检测用户的业务行为特征信息具体包括的内容可以根据实际的业务情况设置。
S201、对多个待检测用户的业务行为特征信息进行聚类处理,获得至少一个簇。
本公开可以采用基于密度的聚类算法对多个待检测用户的业务行为特征信息进行聚类处理,获得至少一个簇。例如,本公开可以采用DBSCAN(DensityBased SpatialClustering of Applications with Noise,具有噪声应用的基于密度的空间聚类)算法,对多个待检测用户的业务行为特征信息进行聚类处理,从而获得一个或者多个簇。每一个簇内的所有节点与簇中心节点之间的距离通常小于预先设置的距离阈值。例如,本公开可以根据预先设置的簇内的最少节点数以及距离阈值等聚类算法的超参数,执行聚类处理操作,从而形成簇,此时形成的簇内的所有节点与簇中心节点之间的距离小于预先设置的距离阈值。超参数中的距离阈值可以设置的小一些,而超参数中的簇内的最少节点数可以设置的大一点,从而本公开可以使聚类处理获得的每一个簇均为簇内所有节点分布紧凑的高密度团。
本公开通过聚类处理获得的一个簇如图3所示。图3中的圆圈300内的各节点形成一个簇,且其中的黑色的节点301为簇中心节点。
S202、获取簇的簇代表用户。
本公开中的一个簇中的每一个节点均对应一个用户,且不同节点对应不同的用户。一个簇的簇代表用户首先必须对应该簇中的一个节点,其次,一个簇的簇代表用户所对应的节点应尽量位于该簇的中心位置处。例如,本公开可以将一个簇的簇中心节点对应的用户作为该簇的簇代表用户。再例如,本公开也可以将一个簇中的与簇中心节点距离最近的节点对应的用户作为该簇的簇代表用户。
在通常情况下,一个簇具有一个簇代表用户。当然,本公开也不排除一个簇具有两个或者三个或者更多簇代表用户的情况。另外,本公开可以记录簇代表用户的用户标识、簇代表用户所在簇的簇标识以及簇代表用户所在簇的其他节点各自对应的待检测用户的用户标识之间的对应关系,以便于在后续的步骤中,可以根据相应的簇待用户的用户状态来设置相应的待检测用户的用户状态。
S203、根据簇代表用户的业务行为特征信息,确定簇代表用户的用户状态。
本公开可以根据实际的业务情况设置用户生命周期,且用户生命周期可以为非闭环的用户生命周期。一个用户生命周期包括多个用户状态,即多个用户状态形成一个用户生命周期。
本公开中的每一个用户状态均具有相应的特征,在一个用户的业务行为特征信息所具有的特征与某个用户状态对应的特征相似时,可以认为该用户处于相应的用户状态。本公开可以通过对簇代表用户的业务行为特征信息进行分类检测等处理,确定簇代表用户的用户状态。
一个簇具有两个或者三个或者更多簇代表用户的情况,本公开可以从多个簇代表用户中随机选取出一个簇代表用户,并利用随机选取出的簇代表用户的业务行为特征信息,确定簇代表用户的用户状态。本公开也可以根据每一个簇代表用户的业务特征信息,确定出每一个簇代表用户的用户状态。
S204、根据簇代表用户的用户状态,确定簇代表用户所在的簇中的各待检测用户的用户状态。
本公开中的一个簇代表用户仅对应一个簇,且该簇中的所有节点对应的用户包括:簇代表用户以及非簇代表用户,且簇代表用户以及非簇代表用户均属于待检测用户。本公开中的一个簇中的所有节点对应的所有用户通常具有一个相同的用户状态。
在一个簇具有一个簇代表用户的情况下,本公开可以将该簇中的该簇代表用户的用户状态作为该簇中的所有非簇代表用户的用户状态。
在一个簇具有两个或者三个或者更多簇代表用户的情况下,本公开可以比较多个簇代表用户的用户状态的可信度,并将多个簇代表用户的用户状态中的可信度最高的用户状态,作为簇代表用户所在簇中的所有节点对应的所有待检测用户的用户状态。例如,假定一个簇有三个簇代表用户,本公开根据三个簇代表用户的业务行为信息,确定出第一个簇代表用户的用户状态为用户状态1,且可信度为0.7,第二个簇代表用户的用户状态为用户状态2,且可信度为0.65,第三个簇代表用户的用户状态为用户状态3,且可信度为0.8;在上述情况下,本公开可以将用户状态3作为簇代表用户所在的簇中的各节点对应的所有待检测用户的用户状态。
在一个簇具有两个或者三个或者更多簇代表用户的情况下,本公开也可以将多数用户状态作为簇代表用户所在的簇中的所有节点对应的所有待检测用户的用户状态。例如,假定一个簇有三个簇代表用户,三个簇代表用户中的其中两个簇代表用户的用户状态均为用户状态1,而另一个簇代表用户的用户状态为用户状态2,由于用户状态1是多数用户状态,因此,本公开可以将用户状态1作为簇代表用户所在的簇中的所有节点对应的所有待检测用户的用户状态。
在本公开记录有簇代表用户的用户标识、簇代表用户所在簇的簇标识以及簇代表用户所在簇的其他节点各自对应的待检测用户的用户标识之间的对应关系的情况下,本公开可以根据簇代表用户的用户标识和簇标识,获得相应簇中其他节点各自对应的待检测用户的用户标识,并为这些待检测用户设置用户状态。同时,本公开可以记录簇代表用户的用户标识、簇代表用户所在簇的簇标识、簇代表用户所在簇的其他节点各自对应的待检测用户的用户标识以及用户状态之间的对应关系。
本公开通过对多个待检测用户各自的业务行为特征信息进行聚类处理,可以使具有微小变化(例如,微小的天数变化等)的业务行为特征信息的待检测用户聚集在一起;通过将聚类处理获得簇中的簇代表用户的用户状态作为簇代表用户所在簇中的各待检测用户的用户状态,可以避免属于同一个簇的两个待检测用户的业务行为特征信息的微小变化,使这两个待检测用户的用户状态发生改变的现象,从而有利于使本公开的技术方案具有业务行为特征信息的微小变化对用户状态的影响的抵抗性。由此可知,本公开提供的技术方案有利于提高用户状态检测结果的准确性。
在一个可选示例中,本公开可以通过对待检测用户的业务数据中的相应字段进行计算、统计汇总(如日期计算、次数统计、流量汇总等)等处理,获得该待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的一个或者多个。待检测用户的业务行为特征信息具体包括的内容可以根据实际的业务情况设置,上述仅为例举说明。
可选的,待检测用户的基于时间不变属性的业务行为特征信息可以包括:在一个时间段内,基于待检测用户执行的各种动作的操作而产生业务数据的用户侧软硬件基础情况信息,且该软硬件基础情况信息在该时间段内不会随时间的变化而发生变化。例如,基于时间不变属性的业务行为特征信息可以包括:待检测用户在执行网络访问时所使用的终端设备类型(如智能移动电话的型号等)、以及待检测用户所使用的应用程序的来源渠道(如待检测用户的APP的下载来源等)等。
可选的,待检测用户的基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息可以是指:根据具体业务的实际需求,对待检测用户的业务数据中的与业务行为动作相关的多个字段分别进行统计处理,获得的结果。例如,对于房产领域而言,本公开的待检测用户的基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息可以包括:用户的PV(Page View,页面浏览)量、用户的页面浏览时长、近N天带用户看房次数、近N日用户委托次数、近N日用户产生的商机的机会的次数以及近N日用户产生的商机次数等。
可选的,待检测用户的基于时序变量的业务行为特征信息可以是指:从时间坐标上,反应待检测用户执行相应动作的情况。例如,对于房产领域而言,本公开的待检测用户的基于时序变量的业务行为特征信息可以包括:用户最近一次进行网络/实地访问距今时间、用户首次进行网络访问/实地访问距今时间、以及首次带用户看房距今时间等。
本公开通过对待检测用户的业务数据进行相应的处理,获得待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息,可以从多个角度反映待检测用户的业务行为特征,从而有利于提高聚类处理的精准性。
在一个可选示例中,本公开可以对聚类处理获得的所有簇进行筛选,并仅从筛选出的符合要求的簇中选取出簇代表用户。本公开中的用于筛选的要求可以是针对簇所包含的簇节点的数量设置的要求。
可选的,本公开可以先从聚类处理获得的所有簇中筛选出包含的簇节点数量不超过预定数量(如100)的簇,筛选出的簇可以称为高密度小簇,高密度小簇也可以称为高密度小团;之后,本公开可以将筛选出的高密度小簇的中心节点对应的待检测用户作为簇代表用户。当然,本公开也可以将筛选出的高密度小簇中的中心节点以及距离中心节点最近的n(如n=1或2等)个节点各自对应的待检测用户均作为簇代表用户。另外,本公开可以将筛选出的高密度小簇中的距离中心节点最近的n(如n=1或2等)个节点各自对应的待检测用户均作为簇代表用户。对于包含簇节点数量超过预定数量的簇,本公开可以不再对其执行选取簇代表用户的操作。
本公开通过对簇所包含的簇节点的数量进行限制,有利于使属于同一个簇的所有待检测用户的业务行为特征信息通常仅具有微小的变化,从而有利于避免一个簇所包含的簇节点数量过多时而可能存在的不同待检测用户的业务行为特征信息变化略大的现象,进而有利于提高用户状态检测结果的准确性。
在一个可选示例中,本公开可以利用预先设置的分类器来确定簇代表用户的用户状态。具体的,本公开可以将簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给该分类器,以便于经由该分类器对簇代表用户的业务行为特征信息进行状态分类预测处理,从而获得分类器输出的分类预测结果,之后,本公开可以根据分类器输出的分类预测结果,确定簇代表用户的用户状态。
可选的,本公开的分类器可以为基于机器学习的多类别分类器。例如,分类器可以为基于XGboost的多类别分类器。本公开的分类器所能预测出的用户状态的种类通常与分类器的训练相关,分类器的训练过程可以参见下述针对图4的描述。
可选的,本公开的分类器输出的分类预测结果可以为:所有用户状态各自对应的可信度(即置信度)。例如,假定预先设定的所有用户状态包括三个用户状态,即用户状态1、用户状态2以及用户状态3,分类器针对一输入的簇代表用户的业务行为特征信息输出三个可信度,第一个可信度表示簇代表用户处于用户状态1的概率,第二个可信度表示簇代表用户处于用户状态2的概率,第三个可信度表示簇代表用户处于用户状态3的概率。本公开对分类器的训练主要目标在于优化分类器输出的可信度。
本公开通过利用分类器来对用户状态进行用户状态预测处理,有利于便捷准确的获得簇代表用户的用户状态。
在一个可选示例中,本公开对分类器进行训练的一个例子如图4所示。
图4中,S400、分别获取各用户状态的种子用户的业务数据。
可选的,在一个用户的业务数据表明该用户曾经处于一个用户状态的情况下,本公开可以将该用户作为该用户状态的种子用户。也就是说,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
可选的,本公开可以利用预先设置的各用户状态各自对应的状态标志信息或者状态条件,来确定各用户状态的种子用户。例如,对于任一用户而言,本公开可以判断该用户的业务数据中是否包含有状态标志信息或者用户的业务数据中的相关信息是否符合一状态条件,如果该用户的业务数据中包含有一用户状态的状态标志信息或者用户的业务数据中的相关信息符合一状态条件,则本公开可以将该用户作为该状态标志信息或者该状态条件对应的用户状态的种子用户。状态标注信息可以是业务数据中的一个字段内容的具体取值等。状态条件可以是业务数据中的相应字段(如时间字段等)的实际取值满足相应的条件(如时间条件)等。状态标志信息以及状态条件应根据实际的业务情况设置,本公开对此不作限制。
可选的,对于房产领域而言,假定本公开中的所有用户状态可以包括:线上引入期、沉默期、线上活跃期、线上成熟期、线下引入期、线下活跃期以及线下成熟期,这七个用户状态。如果一用户的业务数据中包括用于表征该用户在预定时间范围(如180天)内首次通过APP等工具访问房屋租售业务的信息,则可以将该用户作为线上引入期的种子用户。如果一用户的业务数据可以表示出该用户最后一次通过APP等工具访问房屋租售业务的时间到当前时间为止的时长(如天数),超过预定时间间隔(如14天等),则可以将该用户作为沉默期的种子用户。如果一用户的业务数据可以表示出该用户在当前时间之前的预定时间范围(如前一周等)内执行过业务行为(如通过APP等工具访问房屋租售业务或者实地访问等),则可以将该用户作为线上活跃期的种子用户。用户可以从线上引入期跳变至线上活跃期。如果一用户的业务数据中包括用于表征该用户首次发生了线上委托行为(如一用户的线上行为使一房产经纪人成为该用户的专属服务方)的信息,则该用户可以成为线上成熟期的种子用户。用户可以从线上活跃期跳变到线上成熟期。如果一用户的业务数据中包括用于表征该用户首次发生了线下委托行为(如一房产经纪人将一用户设置为其专属用户)的信息,则该用户可以成为线下引入期的种子用户。用户可以从线上活跃期跳变到线下引入期。如果一用户的业务数据中包括用于表征该用户首次发生了实地查看房源的行为的信息,则该用户可以成为线下活跃期的种子用户。用户可以从线上成熟期或者线下引入期跳变到线下活跃期。如果一用户的业务数据中包括用于表征该用户发生了房源租售成交行为的信息,则该用户可以成为线下成熟期的种子用户。用户可以从线下活跃期跳变到线下成熟期。另外,用户可以从沉默期跳变到线上活跃期或者线下引入期。上述七个用户状态、七个用户状态的种子用户以及七个用户状态间的跳转仅为例举,用户状态以及每一个用户状态的种子用户以及用户状态间的跳转可以根据实际的业务情况设置,本公开对此不作限定。
可选的,本公开可以先从业务提供方的数据仓库中获得多个用户的业务数据,并利用各用户状态的状态标志信息或者状态条件判断各用户是否可以成为相应用户状态的种子用户,从而可以获得各种子用户的业务数据。本公开通过设置各用户状态的种子用户,有利于快捷准确的形成训练样本。
另外,需要特别说明的是,每一个用户状态的种子用户的业务数据采集时间窗通常并不相同,例如,在同样时长的采集时间窗,有的用户状态的种子用户的数量较多,而有的用户状态(如线下成熟期)的种子用户的数量很少,这会导致部分用户状态的训练样本较少,如果分类器对于不同类别的样本数量不均衡较为敏感,则会对分类器的训练效果产生较大影响。本公开通过使不同用户状态的种子用户的业务数据采集时间窗不同,例如,线下成熟期的业务数据采集时间窗长于其他用户状态的业务数据采集时间窗,这样,有利于避免部分用户状态的训练样本较少的现象,从而有利于提高分类器的训练效果。
S401、根据各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息。
对于任一用户状态的任一种子用户而言,本公开可以根据该种子用户的业务数据中的位于状态标志信息时间点之前的业务数据,获取该种子用户的业务行为特征信息。本公开也可以根据该种子用户的业务数据中的位于满足状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。在一个用户的业务数据表明该用户曾经先后处于多个用户状态的情况下,本公开可以两个用户状态的时间点之间的业务数据形成后一个用户状态的种子用户的业务行为特征信息。
可选的,对于任一种子用户而言,本公开可以通过查找该种子用户的业务数据中的相应字段,并对查找到的相应字段进行计算、统计汇总(如日期计算、次数统计、流量汇总等)等处理,获得该种子用户的业务行为特征信息。种子用户的业务行为特征信息具体包括的内容可以根据实际的业务情况设置。例如,本公开可以通过对种子用户的业务数据中的相应字段进行计算、统计汇总(如日期计算、次数统计、流量汇总等)等处理,获得种子用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息。
可选的,种子用户的基于时间不变属性的业务行为特征信息可以包括:在一个时间段内,基于种子用户执行的各种动作的操作而产生业务数据的用户侧软硬件基础情况信息,且该软硬件基础情况信息在该时间段内不会随时间的变化而发生变化。例如,基于时间不变属性的业务行为特征信息可以包括:种子用户在执行网络访问时所使用的终端设备类型(如智能移动电话的型号等)、以及种子用户所使用的应用程序的来源渠道(如种子用户的APP的下载来源等)等。
可选的,种子用户的基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息可以是指:根据具体业务的实际需求,对种子用户的业务数据中的与业务行为动作相关的多个字段分别进行统计处理,获得的结果。例如,对于房产领域而言,本公开的种子用户的基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息可以包括:种子用户的PV量、种子用户的页面浏览时长、近N天带种子用户看房次数、近N日种子用户委托次数、近N日种子用户产生的商机的机会的次数以及近N日种子用户产生的商机次数等。
可选的,种子用户的基于时序变量的业务行为特征信息可以是指:从时间坐标上,反应种子用户执行相应动作的情况。例如,对于房产领域而言,本公开的种子用户的基于时序变量的业务行为特征信息可以包括:种子用户最近一次进行网络/实地访问距今时间、种子用户首次进行网络访问/实地访问距今时间、以及首次带种子用户看房距今时间等。
S402、根据各用户状态的种子用户的业务行为特征信息,生成多个训练样本。
可选的,本公开中的每一个种子用户的业务行为特征信息对应一状态标注信息或者对应一状态条件,且每一个状态标注信息对应一用户状态,每一个状态条件对应一用户状态。本公开可以根据种子用户的业务行为特征信息所对应的状态标注信息或者状态条件,确定出种子用户的业务行为特征信息所对应的用户状态,本公开可以根据该种子用户的业务行为特征信息所对应的用户状态,为该种子用户的业务行为特征信息设置相应的用户状态标签,从而使该种子用户的业务行为特征信息与该用户状态标签一起,形成一个训练样本。
S403、利用多个训练样本对分类器进行训练。
可选的,本公开可以将各用户状态各自对应的多个训练样本分别提供给分类器,由分类器对每一个输入的训练样本分别进行分类预测处理,并针对每一个输入的训练样本分别输出分类预测处理结果,即每一个训练样本分别属于各用户状态的概率(可以认为是置信度)。本公开可以根据分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,利用相应的损失函数计算损失,并利用计算出的损失调整分类器的模型参数。
可选的,本公开提供给分类器的各用户状态各自对应的训练样本的数量相同。例如,在本公开中的用户状态为上述例举的七种用户状态的情况下,本公开提供给分类器的所有训练样本的数量为7×M(M为大于0的整数,例如,M为3万),且提供给分类器的每一种用户状态的训练样本的数量均为M。
当然,本公开提供给分类器的每一种用户状态的训练样本的数量可以大致相同,而不是完全相同。例如,任意两个用户状态的训练样本的数量的差值均不超过预定差值。再例如,任意两个用户状态的训练样本的数量的比值均不大于预定比值。
在分类器对不同类别的训练样本的数量不均衡,较为敏感的情况下,本公开通过使提供给分类器的各用户状态各自对应的训练样本的数量完全相同或者大致相同,有利于提高分类器的训练效果。
可选的,本公开可以将训练样本划分为训练集和测试集,本公开可以利用训练集中的训练样本对分类器进行训练,利用测试集中的训练样本对分类器的分类效果进行检测。在检测结果不符合要求时,可以继续利用训练集中的训练样本对分类器进行训练。
需要特别说明的是,本公开通过实际试验获知,用于训练分类器的训练样本的数量并不是越多越好,当训练样本超过一定数量时,超出部分的训练样本并不能使分类器学习到新的知识,因此,训练样本的数量通常应控制在一定数量(如3万)以内。再有,本公开可以对训练样本进行聚类处理,从而获得多个簇,通过对每一个簇中的各训练样本进行多维度的分析,可以去除部分不符合认知的训练样本,也可以对部分训练样本的用户状态标签进行校正,以消除不恰当的训练样本对分类器的训练结果的影响。另外,本公开的训练样本对应的用户也可以被作为待检测用户,即训练样本也可以被作为待检测用户的业务行为特征信息。
示例性装置
图5为本公开的检测用户状态的装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图5所示,本实施例的装置可以包括:获取信息模块500、聚类处理模块501、获取代表用户模块502、第一确定状态模块503以及第二确定状态模块504。可选的,本实施例的装置还可以包括:训练模块505以及确定种子用户模块506。
获取信息模块500用于根据多个待检测用户的业务数据,获取多个待检测用户各自的业务行为特征信息。例如,获取信息模块500可以根据多个待检测用户的业务数据,获取多个待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的至少一个。
聚类处理模块501用于对获取信息模块500获取到的多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇。
获取代表用户模块502用于获取聚类处理模块501获得的簇的簇代表用户。例如,获取代表用户模块502可以从聚类处理模块501获得的所有簇中筛选出包含的簇节点数量不超过预定数量的簇;获取代表用户模块502可以将筛选出的簇的中心节点对应的待检测用户作为簇代表用户。
第一确定状态模块503用于根据获取代表用户模块502获得的簇代表用户的业务行为特征信息,确定簇代表用户的用户状态。例如,第一确定状态模块503可以将簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给分类器;第一确定状态模块503可以根据分类器输出的分类预测结果,确定簇代表用户的用户状态。
第二确定状态模块504用于根据第一确定状态模块503确定出的簇代表用户的用户状态,确定该簇代表用户所在的簇中的各待检测用户的用户状态。
训练模块505用于分别获取各用户状态的种子用户的业务数据,并根据各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息,训练模块505根据各用户状态的种子用户的业务行为特征信息,生成多个训练样本,训练模块505利用多个训练样本对分类器进行训练。其中,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
可选的,对于任一用户状态的任一种子用户而言,训练模块505可以根据该种子用户的业务数据中的位于状态标志信息时间点之前的业务数据或者满足状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。
可选的,对于任一状态标志信息或者任一状态条件而言,训练模块506可以根据该标志性行为信息或者该状态条件对应的用户状态,为相应的种子用户的业务行为特征信息设置用户状态标签,生成训练样本。
可选的,训练模块506可以将各用户状态各自对应的训练样本分别提供给分类器,并根据分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,调整分类器的模型参数。其中,训练模块506提供给分类器的各用户状态各自对应的训练样本的数量相同。
确定种子用户模块506用于根据预先设置的各用户状态各自对应的状态标志信息或者状态条件,确定各用户的业务数据中包含有状态标志信息或者业务数据满足状态条件的用户,确定种子用户模块506将确定出的用户作为相应用户状态的种子用户。
示例性电子设备
下面参考图6来描述根据本公开实施例的电子设备。图6示出了根据本公开实施例的电子设备的框图。如图6所示,电子设备61包括一个或多个处理器611和存储器612。
处理器611可以是中央处理单元(CPU)或者具有检测用户状态的能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备61中的其他组件以执行期望的功能。
存储器612可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行所述程序指令,以实现上文所述的本公开的各个实施例的检测用户状态的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备61还可以包括:输入装置613以及输出装置614等,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备61还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的检测用户状态的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的检测用户状态的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (18)
1.一种检测用户状态的方法,包括:
根据多个待检测用户的业务数据,获取所述多个待检测用户各自的业务行为特征信息;
对所述多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇;
获取所述簇的簇代表用户;
根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态;
根据所述簇代表用户的用户状态,确定所述簇代表用户所在的簇中的各待检测用户的用户状态;
其中,所述获取所述簇的簇代表用户,包括:从所述至少一个簇中筛选出包含的簇节点数量不超过预定数量的簇;将所述筛选出的簇的中心节点对应的待检测用户作为簇代表用户。
2.根据权利要求1所述的方法,其中,所述根据多个待检测用户的业务数据,获取所述多个待检测用户的业务行为特征信息,包括:
根据多个待检测用户的业务数据,获取多个待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的至少一个。
3.根据权利要求1或2所述的方法,其中,所述根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态,包括:
将所述簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给所述分类器;
根据所述分类器输出的分类预测结果,确定所述簇代表用户的用户状态。
4.根据权利要求3所述的方法,其中,所述方法还包括:
分别获取各用户状态的种子用户的业务数据;
根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息;
根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本;
利用所述多个训练样本对所述分类器进行训练;
其中,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
5.根据权利要求4所述的方法,其中,所述方法在所述分别获取各用户状态的种子用户的业务数据的步骤之前,还包括:
根据预先设置的各用户状态各自对应的状态标志信息或者状态条件,确定各用户的业务数据中包含有所述状态标志信息或者业务数据满足所述状态条件的用户,并将所述确定出的用户作为相应用户状态的种子用户。
6.根据权利要求5所述的方法,其中,所述根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息,包括:
对于任一用户状态的任一种子用户而言,根据该种子用户的业务数据中的位于所述状态标志信息时间点之前的业务数据或者满足所述状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。
7.根据权利要求5或6所述的方法,其中,所述根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本,包括:
对于任一状态标志信息或者任一状态条件而言,根据该标志性行为信息或者该状态条件对应的用户状态,为相应的种子用户的业务行为特征信息设置用户状态标签,生成训练样本。
8.根据权利要求4至6中任一项所述的方法,其中,所述利用所述多个训练样本对所述分类器进行训练,包括:
将各用户状态各自对应的训练样本分别提供给所述分类器;
根据所述分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,调整所述分类器的模型参数;
其中,提供给所述分类器的各用户状态各自对应的训练样本的数量相同。
9.一种检测用户状态的装置,其中,所述装置包括:
获取信息模块,用于根据多个待检测用户的业务数据,获取所述多个待检测用户各自的业务行为特征信息;
聚类处理模块,用于对所述多个待检测用户各自的业务行为特征信息进行聚类处理,获得至少一个簇;
获取代表用户模块,用于获取所述簇的簇代表用户;
第一确定状态模块,用于根据所述簇代表用户的业务行为特征信息,确定所述簇代表用户的用户状态;
第二确定状态模块,用于根据所述簇代表用户的用户状态,确定所述簇代表用户所在的簇中的各待检测用户的用户状态;
所述获取代表用户模块进一步用于:
从所述至少一个簇中筛选出包含的簇节点数量不超过预定数量的簇;
将所述筛选出的簇的中心节点对应的待检测用户作为簇代表用户。
10.根据权利要求9所述的装置,其中,所述获取信息模块进一步用于:
根据多个待检测用户的业务数据,获取多个待检测用户的基于时间不变属性的业务行为特征信息、基于业务行为次数和/或业务行为资源消耗统计的业务行为特征信息以及基于时序变量的业务行为特征信息中的至少一个。
11.根据权利要求9或10所述的装置,其中,所述第一确定状态模块进一步用于:
将所述簇代表用户的业务行为特征信息,作为用于预测用户状态的分类器的输入,提供给所述分类器;
根据所述分类器输出的分类预测结果,确定所述簇代表用户的用户状态。
12.根据权利要求11所述的装置,其中,所述装置还包括:训练模块,用于:
分别获取各用户状态的种子用户的业务数据;
根据所述各用户状态的种子用户的业务数据,形成各用户状态的种子用户的业务行为特征信息;
根据所述各用户状态的种子用户的业务行为特征信息,生成多个训练样本;
利用所述多个训练样本对所述分类器进行训练;
其中,对于任一用户状态而言,该用户状态的种子用户为在一历史时间处于该用户状态的用户。
13.根据权利要求12所述的装置,其中,所述装置还包括:
确定种子用户模块,用于根据预先设置的各用户状态各自对应的状态标志信息或者状态条件,确定各用户的业务数据中包含有所述状态标志信息或者业务数据满足所述状态条件的用户,并将所述确定出的用户作为相应用户状态的种子用户。
14.根据权利要求13所述的装置,其中,所述训练模块进一步用于:
对于任一用户状态的任一种子用户而言,根据该种子用户的业务数据中的位于所述状态标志信息时间点之前的业务数据或者满足所述状态条件的时间点之前的业务数据,获取该种子用户的业务行为特征信息。
15.根据权利要求13或14所述的装置,其中,所述训练模块进一步用于:
对于任一状态标志信息或者任一状态条件而言,根据该标志性行为信息或者该状态条件对应的用户状态,为相应的种子用户的业务行为特征信息设置用户状态标签,生成训练样本。
16.根据权利要求12至14中任一项所述的装置,其中,所述训练模块进一步用于:
将各用户状态各自对应的训练样本分别提供给所述分类器;
根据所述分类器针对各训练样本分别输出的分类预测结果与相应的训练样本的用户状态标签之间的差异,调整所述分类器的模型参数;
其中,提供给所述分类器的各用户状态各自对应的训练样本的数量相同。
17.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8中任一项所述的方法。
18.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352487.9A CN111178421B (zh) | 2019-12-25 | 2019-12-25 | 检测用户状态的方法、装置、介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352487.9A CN111178421B (zh) | 2019-12-25 | 2019-12-25 | 检测用户状态的方法、装置、介质以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178421A CN111178421A (zh) | 2020-05-19 |
CN111178421B true CN111178421B (zh) | 2023-10-20 |
Family
ID=70655666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911352487.9A Active CN111178421B (zh) | 2019-12-25 | 2019-12-25 | 检测用户状态的方法、装置、介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178421B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134665B (zh) * | 2021-03-22 | 2024-03-01 | 中国电信股份有限公司 | 基于机顶盒的数据处理方法及装置、存储介质、电子设备 |
CN113610175B (zh) * | 2021-08-16 | 2024-06-14 | 上海冰鉴信息科技有限公司 | 一种业务策略生成方法、装置及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0893894A2 (en) * | 1997-07-24 | 1999-01-27 | AT&T Corp. | A method for designing sonet ring networks suitable for local access |
CN102087576A (zh) * | 2009-12-04 | 2011-06-08 | 索尼公司 | 显示屏控制方法、图形用户接口、信息处理设备和方法 |
CN103927309A (zh) * | 2013-01-14 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种对业务对象标注信息标签的方法及装置 |
CN106455056A (zh) * | 2016-11-14 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 定位方法和装置 |
CN106529711A (zh) * | 2016-11-02 | 2017-03-22 | 东软集团股份有限公司 | 用户行为预测方法及装置 |
CN106603324A (zh) * | 2015-10-20 | 2017-04-26 | 富士通株式会社 | 训练集的获取装置以及方法 |
CN108710894A (zh) * | 2018-04-17 | 2018-10-26 | 中国科学院软件研究所 | 一种基于聚类代表点的主动学习标注方法和装置 |
-
2019
- 2019-12-25 CN CN201911352487.9A patent/CN111178421B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0893894A2 (en) * | 1997-07-24 | 1999-01-27 | AT&T Corp. | A method for designing sonet ring networks suitable for local access |
US6061335A (en) * | 1997-07-24 | 2000-05-09 | At&T Corp | Method for designing SONET ring networks suitable for local access |
CN102087576A (zh) * | 2009-12-04 | 2011-06-08 | 索尼公司 | 显示屏控制方法、图形用户接口、信息处理设备和方法 |
CN103927309A (zh) * | 2013-01-14 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种对业务对象标注信息标签的方法及装置 |
CN106603324A (zh) * | 2015-10-20 | 2017-04-26 | 富士通株式会社 | 训练集的获取装置以及方法 |
CN106529711A (zh) * | 2016-11-02 | 2017-03-22 | 东软集团股份有限公司 | 用户行为预测方法及装置 |
CN106455056A (zh) * | 2016-11-14 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 定位方法和装置 |
CN108710894A (zh) * | 2018-04-17 | 2018-10-26 | 中国科学院软件研究所 | 一种基于聚类代表点的主动学习标注方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111178421A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200160230A1 (en) | Tool-specific alerting rules based on abnormal and normal patterns obtained from history logs | |
US10592666B2 (en) | Detecting anomalous entities | |
AU2016204068B2 (en) | Data acceleration | |
US11190562B2 (en) | Generic event stream processing for machine learning | |
Žliobaitė et al. | Active learning with drifting streaming data | |
US20180278640A1 (en) | Selecting representative metrics datasets for efficient detection of anomalous data | |
Gama et al. | On evaluating stream learning algorithms | |
US9817893B2 (en) | Tracking changes in user-generated textual content on social media computing platforms | |
US20200089761A1 (en) | Identifying application software performance problems using automated content-based semantic monitoring | |
Gama et al. | Recurrent concepts in data streams classification | |
US20120158623A1 (en) | Visualizing machine learning accuracy | |
US11042525B2 (en) | Extracting and labeling custom information from log messages | |
CN113159615A (zh) | 一种工业控制***信息安全风险智能测定***及方法 | |
Yang et al. | A multi-stage automated online network data stream analytics framework for IIoT systems | |
CN111178421B (zh) | 检测用户状态的方法、装置、介质以及电子设备 | |
US11321165B2 (en) | Data selection and sampling system for log parsing and anomaly detection in cloud microservices | |
CN113538154A (zh) | 风险对象的识别方法、装置、存储介质和电子设备 | |
CN114138977A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
Costa et al. | Adaptive learning for dynamic environments: A comparative approach | |
CN115204733A (zh) | 数据审计方法、装置、电子设备及存储介质 | |
CN113254250B (zh) | 数据库服务器异常成因检测方法、装置、设备和存储介质 | |
Naidu et al. | Analysis of Hadoop log file in an environment for dynamic detection of threats using machine learning | |
CN112116159B (zh) | 信息交互方法、装置、计算机可读存储介质及电子设备 | |
CN116225848A (zh) | 日志监测方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |