CN107818344A - 用户行为进行分类和预测的方法和*** - Google Patents

用户行为进行分类和预测的方法和*** Download PDF

Info

Publication number
CN107818344A
CN107818344A CN201711055158.9A CN201711055158A CN107818344A CN 107818344 A CN107818344 A CN 107818344A CN 201711055158 A CN201711055158 A CN 201711055158A CN 107818344 A CN107818344 A CN 107818344A
Authority
CN
China
Prior art keywords
user behavior
information
user
attribute
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711055158.9A
Other languages
English (en)
Other versions
CN107818344B (zh
Inventor
王盼
夏良超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201711055158.9A priority Critical patent/CN107818344B/zh
Publication of CN107818344A publication Critical patent/CN107818344A/zh
Application granted granted Critical
Publication of CN107818344B publication Critical patent/CN107818344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种对用户行为进行分类识别和预测的方法和***,所述方法包括以下步骤:步骤1、从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;步骤3、根据所选的分类模型,对用户行为数据进行分类识别;步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。

Description

用户行为进行分类和预测的方法和***
技术领域
本发明涉及互联网服务技术领域,尤其涉及基于决策树归纳对用户行为进行预测的方法。
背景技术
随着互联网的发展,每天都有成千上万的人在页面上进行操作,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。机器学习(Machine Learning)目前看来是最有前途的一种技术。机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。而决策树是机器学习中最基础且应用最广泛的算法模型。在做小微企业信贷时,风控是关键,也是比较难把握的一个环节。
在传统的方法中,需要对用户行为进行人工分类、判定,从而预测用户访问网站的意图,并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下,数据往往维度多、数据量大,人工很难将用户行为相关的指标统计全面。此外,由于人会出现疲劳等情况,这种传统的人工识别的方法准确率并不高。
然而,在现有技术中,对用户行为进行分类和预测的方法较为单一,参考效果不理想。由于用户行为包括线上和线下行为,数据来源复杂,存在这样的需求:开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性的方案。
发明内容
基于此,有必要针对上述技术问题,提供基于决策树归纳对用户行为进行预测的方法,其通过同步用户网络访问行为和其它业务行为的次数以及操作时间,根据每个属性的行为次数与时间等特征,建立分类模型(决策树),从而对用户的行为分类、并预测用户的潜在行为(需求)。
根据本发明的实施例,提供了一种对用户行为进行分类识别和预测的方法,包括以下步骤:
步骤1、从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
步骤3、根据所选的分类模型,对用户行为数据进行分类识别;
步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,
其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
根据本发明的实施例,其中,所述步骤1包括:
步骤1-1、对用户身份进行识别,获取所述用户行为数据在各个维度上的属性,如果所述用户行为数据在部分维度的属性不完整,则调用该用户的历史行为数据,与所述预设时段的用户行为数据合并,补充所述部分维度的属性。
根据本发明的实施例,其中,在所述步骤1中,所述用户行为数据的来源包括:用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。
根据本发明的实施例,在所述步骤2中,对于用户在业务服务端的网络访问行为数据,选择决策树分类模型,对于线下业务数据、和/或从第三方获取的所述用户行为数据,选择随机森林分类模型。
根据本发明的实施例,其中,通过以下步骤,构建所述决策树分类模型:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
S400、将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式从步骤S200循环执行,继续***其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止。
根据本发明的实施例,其中,步骤S100包括以下子步骤:
S101、对网络访问信息进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
根据本发明的实施例,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对不同属性的行为数据施加不同的权重。
根据本发明的实施例,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对在不同时间段收集的行为数据施加不同的权重。
根据本发明的实施例,其中,所述决策树分类模型包括多级决策树分类模型。
根据本发明的实施例,提供了一种基于决树归纳对用户行为进行预测的***,包括训练模块、分类和预测模块,
所述训练模块用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息,
所述训练模块包括:
样本获取模块,用于获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
计算模块,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
***模块,用于选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
构建模块,将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述***模块,继续***其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止,
所述分类和预测模块用于根据训练好的分类模型对用户行为进行分类和预测,包括:
数据获取模块,用于从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
分类模块,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块,用于根据分类结果,调用信息知识库,预测用户行为的目的。
根据本发明的实施例,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有基于决树归纳对用户行为进行预测的程序,所述程序被处理器执行时执行上述方法的步骤。
本发明的有益效果主要在于:降低人工服务成本,提高对用户行为或需求的预测能力,并大大提高相关业务的办理速度;能够根据样本数据来源的不同,选择不同的分类模型级联和/或并联,使得客户行为的识别、客户关系管理更加精准。
附图说明
图1为根据本发明的实施例的用于分类并预测用户行为的决策树的构建方法的流程示意图;
图2为根据本发明的实施例的基于决策树归纳对用户行为进行预测的方法的流程示意图;
图3为根据本发明的实施例的基于决策树归纳对用户行为进行预测的***的架构示意图;
图4为根据本发明的实施例的基于决策树归纳对用户行为进行预测的***的训练模块的示意图;
图5为根据本发明的实施例的基于决策树归纳对用户行为进行预测的***的分类和预测模块的示意图;
图6为根据本发明的实施例的安装了应用程序的***的运行环境的示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下文中,将描述用于进行本发明的实施例。注意,将以下面的次序给出描述:1、发明构思的概要;2、用于分类并预测用户行为的决策树的构建方法(图1);3、基于决策树的分类预测方法(图2)4、基于决策树归纳对用户行为进行预测的***(图3至5);5、根据本发明的实施例的安装了应用程序的***。
1、发明构思的概要
使用决策树进行分类,首先利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识、进行机器学习的过程。然后利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根节点依次测试记录的属性值,直到到达某个叶节点,从而找到该记录所在的类。
构造决策树最大的运算代价在于计算选择最佳***属性,因为选择***的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算,最后选出最佳的***属性。对***属性的衡量准则包括信息熵和基尼指标(GiniIndex)等方法。
2、用于分类并预测用户行为的决策树的构建方法
鉴于现有技术中不能有效地识别并预测用户网络行为,并本发明的实施例提出了快速有效地识别并预测用户网络行为的方法。
需要说明的是,以下方法以***型决策树构建方法作为示例,而本发明可采用其它类型的决策树构建方式,也可采用其它的分类模型,如随机森林法。
如图1所示,构建上述决策树的方法主要包括以下步骤:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集;
其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
S400、将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式执行步骤S200,继续***其它属性,直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。
在步骤S100中,作为示例,所述访问行为信息包括在预设时间段内(例如,最近一周、一个月、三个月、半年、一年,等等)、用户对特定网站(包括但不限于传统的Web网站、从移动端应用(APP)访问的网页)的行为数据,如操作和浏览情况(包括各个操作细节、操作时间、操作位置、IP地址等信息),其由业务服务端的服务器所记录。
作为示例,所述访问行为信息可包括用户的登录时间、登录名、搜索信息、浏览信息以及购买和支付信息,等等。具体地,上述的搜索信息、浏览信息以及购买信息可为用户在访问电商类网站时、或通过移动端APP进行的浏览、搜索以及购买的信息。
作为示例,所述访问类别信息可被视为行为数据的属性或特征,其可包括:完成访问类别信息,包括登录、选中商品、浏览和搜索等类别中的一种或多种;预期访问类别信息,包括认证、购买支付、收藏、下载、咨询等类别中的一种或多种。
也就是说,训练样本集中不但包括原始行为数据本身,还包括每个行为数据所对应的类别,即,在训练样本集中已累积了每个行为数据与类别之间的对应关系。
用户可通过一个或多个不同的终端来进行上述网络访问,终端包括但不限于个人计算机、笔记本电脑、平板电脑、智能手机、可穿戴式智能设备等。服务器可实时检测用户的网络访问信息,并存储该网络访问信息。具体地,服务器可根据用户的登录名、手机号等信息来识别单个用户的网络身份,并单独记录、统计网络身份各自的网络信息。
网络访问信息还包括关于上述网络身份的信息,其包括但不限于用户的基本信息,如用户的国籍、所在城市、年龄、性别、联系方式,等等。
通常,服务器所存储的用户的网络访问信息是用户进行网络访问的综合信息。因此,在获取该网络访问信息后,可对该网络访问信息进行解析,以提取出用户在每个预设行为类别(属性)中的行为数据。
在一个实施例中,该步骤S100可包括:
S101、对网络访问信息进行预处理(数据清洗、筛选),根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据,使获取的同一类别的行为数据具有相同的格式。
在步骤S101中,为提取出每个类别的行为数据,可对该网络访问信息进行预处理。对网络访问信息的预处理包括对网络访问信息进行变量采集、变量区间处理、极大极小规则处理、缺失值处理和格式处理等。
变量采集为从网络访问信息中采集出用户每次网络访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等等,比如访问一个具体的电商网站时的访问时间、登录时间、浏览信息、搜索信息以及购买信息。服务器在采集出用户每次访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等信息时,可调用相关的累加器或计算器等对应统计出用户在预设时间段内的登录次数、购买次数、浏览次数和搜索次数、购买金额,等等。
变量区间处理为根据业务的规则为每个变量划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入,以计算用户行为熵等特征。例如,用户的上述次数登录次数、购买金额可分别被划分到多个区间中的一个,每个区间对应于具体数值,例如,与次数或金额相关的用户行为可对应于规范化的指标(0至100)。
极大极小规则处理包括对所采集的网络访问信息所包含的数值大小的处理,以降低异常数据对用户的行为分类判断的干扰。具体的,可所对所采集的网络访问信息中的用户的年龄进行极大极小的规则处理。比如,对于年龄为-1、0、或999岁等等,明显不符合正常用户年龄的数据,对其进行极大极小规则处理。
缺失值处理是指所采集网络访问信息中包含的预设行为类别中的行为数据不存在时,可对其进行缺失值处理。如将其标记为“0”,或采用其它信息代替等等。比如,用户采用匿名访问或不登录用户名而直接访问相关的购物网站时,服务器所记录的用户的登录信息则缺失。服务器可对该类信息进行缺失值处理,如可获取用户的访问终端的唯一标识,将该唯一标识作为和用户的登录名进行关联。
格式处理包括对网络访问信息中包含的时间信息的格式的处理,使其格式保持相同。比如,对于所记录的用户的登录时间等时间信息,比如所记录到的时间信息包括20091011和2009-10-11以及2009年10月11日等形式,可将其全部转换成统一格式,如20091011。
在步骤S200中,信息熵的计算公式为:
其中,等式左边表示样本集S的信息熵,c表示预设行为属性的数目,pi表示第i属性的行为相对于总次数的概率。根据属性S的信息熵,还可计算行为熵,其为每个预设属性的信息熵之和。
信息增益的计算公式为:
其中,等式左边表示属性A的信息增益,Sv为属性A取值为V的样本,|SV|为属性取值为V的样本数。
信息增益率的计算公式为:
其中,
可选地,在计算信息增益时,可为每个属性A设定不同的权重。
3、基于决策树的分类预测方法(图2)
决策树构建完成之后,可通过如下步骤实现对用户网络访问行为的分类预测,并进一步对用户进行评级,并采取相应的管理手段。
如图2所示,所述分类预测方法主要包括以下步骤:
S600、获取待识别用户网络访问行为的行为特征,确定行为特征的属性;
S700、根据所生成的决策树模型,加载所述行为特征的属性;
S800、递归遍历所述决策树模型,查找所述行为特征对应的决策树叶子分类节点,由所述叶子节点确定所述用户网络访问行为的分类;
S900、根据所确定的分类,对该用户进行评级,并采取相应的管理手段。
可选地,在步骤S600中,包括对用户身份的识别的过程,在识别出用户身份的情况下,调用该用户的历史访问行为数据,补足该用户的网络访问行为特征的多个维度上的属性。如果该用户的历史访问行为数据在部分维度上的属性不完整,则按照默认规则补全不完整的行为属性,以便满足所述决策树模型的要求。
可选地,在步骤S700中,所生成的决策树模型可以有一个或多个,可根据分类目的而选择决策树模型中的一个。并且,可选地,所生成的多个决策树模型也可以是多级关系,通过同类或不同类的决策树模型级联而满足最终的分类要求。
可选地,在步骤S800中,所述分类可为多维输出,根据预定规则,能够产生用户标签,以便建立用户画像。
可选地,在步骤S900中,包括对用户网络访问的权限进行控制。
可选地,在步骤S900中,根据分类结果,调用信息知识库,预测用户行为的目的,其中,所述信息知识库记录了用户的行为过程与行为目的之间的关系。
4、基于决树归纳对用户行为进行分类和预测的***
参照图3至5,根据本发明的实施例,基于决树归纳对用户行为进行预测的***主要包括训练模块10、分类和预测模块20。
所述训练模块10用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息。
所述训练模块10包括:
样本获取模块101,用于获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。
计算模块102,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
***模块103,用于选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
构建模块104,将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述***模块,继续***其它属性,直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。
所述分类和预测模块20包括:
数据获取模块201,用于从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块202,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
分类模块203,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块204,用于根据分类结果,调用信息知识库,预测用户行为的目的。
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令是当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地,软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上,例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。
5、根据本发明的实施例的安装了应用程序的***
参照图6,其示出了根据本发明的实施例的安装了应用程序的***的运行环境。
在本实施例中,所述的安装应用程序的***安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。图6仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的***的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的***等。
所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过***总线相互通信。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例,但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。

Claims (10)

1.一种对用户行为进行分类识别和预测的方法,包括以下步骤:
步骤1、从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
步骤3、根据所选的分类模型,对用户行为数据进行分类识别;
步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,
其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
2.根据权利要求1所述的方法,其中,所述步骤1包括:
步骤1-1、对用户身份进行识别,获取所述用户行为数据在各个维度上的属性,如果所述用户行为数据在部分维度的属性不完整,则调用该用户的历史行为数据,与所述预设时段的用户行为数据合并,补充所述部分维度的属性。
3.根据权利要求1所述的方法,其中,在所述步骤1中,所述用户行为数据的来源包括:用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。
4.根据权利要求3所述的方法,其中,在所述步骤2中,对于用户在业务服务端的网络访问行为数据,选择决策树分类模型,
对于线下业务数据、和/或从第三方获取的所述用户行为数据,选择随机森林分类模型。
5.根据权利要求4所述的方法,其中,通过以下步骤,构建所述决策树分类模型:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
S400、将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式从步骤S200循环执行,继续***其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止。
6.根据权利要求5所述的方法,其中,步骤S100包括以下子步骤:
S101、对网络访问信息进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
7.根据权利要求6所述的方法,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对不同属性的行为数据施加不同的权重。
8.根据权利要求6所述的方法,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对在不同时间段收集的行为数据施加不同的权重。
9.一种基于决树归纳对用户行为进行分类和预测的***,包括训练模块、分类和预测模块,
所述训练模块用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息,
所述训练模块包括:
样本获取模块,用于获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
计算模块,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
***模块,用于选出信息增益和/或信息增益率最大的属性作为根节点的***属性;
构建模块,将训练样本集中所述***属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述***模块,继续***其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止,
所述分类和预测模块用于根据训练好的分类模型对用户行为进行分类和预测,包括:
数据获取模块,用于从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
分类模块,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块,用于根据分类结果,调用信息知识库,预测用户行为的目的。
10.一种计算机可读存储介质,其上存储有基于决树归纳对用户行为进行预测的程序,所述程序被处理器执行时,执行根据权利要求1至8中的一个所述的方法的步骤。
CN201711055158.9A 2017-10-31 2017-10-31 用户行为进行分类和预测的方法和*** Active CN107818344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711055158.9A CN107818344B (zh) 2017-10-31 2017-10-31 用户行为进行分类和预测的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711055158.9A CN107818344B (zh) 2017-10-31 2017-10-31 用户行为进行分类和预测的方法和***

Publications (2)

Publication Number Publication Date
CN107818344A true CN107818344A (zh) 2018-03-20
CN107818344B CN107818344B (zh) 2020-01-07

Family

ID=61603671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711055158.9A Active CN107818344B (zh) 2017-10-31 2017-10-31 用户行为进行分类和预测的方法和***

Country Status (1)

Country Link
CN (1) CN107818344B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647818A (zh) * 2018-05-08 2018-10-12 山东浪潮通软信息科技有限公司 一种预测企业涉税风险的方法及装置
CN108961071A (zh) * 2018-06-01 2018-12-07 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN109389426A (zh) * 2018-09-26 2019-02-26 深圳壹账通智能科技有限公司 商品价格层次的获取方法、***、计算机设备和存储介质
CN109409936A (zh) * 2018-09-28 2019-03-01 深圳壹账通智能科技有限公司 用户消费画像生成方法、装置、设备及可读存储介质
CN109409949A (zh) * 2018-10-17 2019-03-01 北京字节跳动网络技术有限公司 用户群体分类的确定方法、装置、电子设备及存储介质
CN109522556A (zh) * 2018-11-16 2019-03-26 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109523056A (zh) * 2018-10-12 2019-03-26 中国平安人寿保险股份有限公司 对象能力分类预测方法及装置、电子设备、存储介质
CN109522197A (zh) * 2018-11-23 2019-03-26 浙江每日互动网络科技股份有限公司 一种用户app行为的预测方法
CN109753783A (zh) * 2018-11-28 2019-05-14 北京友信科技有限公司 一种基于机器学习的单点登录方法、装置及计算机可读存储介质
CN109815085A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 告警数据的分类方法、装置和电子设备及存储介质
CN109871809A (zh) * 2019-02-22 2019-06-11 福州大学 一种基于语义网的机器学习流程智能组装方法
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN109918408A (zh) * 2019-03-01 2019-06-21 成都农村商业银行股份有限公司 一种黑名单更新方法、装置、设备及计算机可读存储介质
CN110069545A (zh) * 2019-03-07 2019-07-30 阿里巴巴集团控股有限公司 一种行为数据评估方法及装置
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110135901A (zh) * 2019-05-10 2019-08-16 重庆天蓬网络有限公司 一种企业用户画像构建方法、***、介质和电子设备
CN110135701A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 控制规则的自动生成方法、装置、电子设备及可读介质
CN110266510A (zh) * 2018-03-21 2019-09-20 腾讯科技(深圳)有限公司 网络控制策略生成方法及装置、网络控制方法、存储介质
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110472645A (zh) * 2018-05-09 2019-11-19 北京京东尚科信息技术有限公司 一种选择目标对象的方法和装置
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN110674839A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 异常用户识别方法、装置、存储介质及电子设备
WO2020082596A1 (zh) * 2018-10-23 2020-04-30 深圳壹账通智能科技有限公司 基于数据处理的用户画像自动生成方法和***
CN111317448A (zh) * 2020-03-03 2020-06-23 南京鼓楼医院 一种分析视觉空间认知的方法及***
CN111417021A (zh) * 2020-03-16 2020-07-14 广州虎牙科技有限公司 外挂识别方法、装置、计算机设备和可读存储介质
CN111581530A (zh) * 2020-05-07 2020-08-25 北京互金新融科技有限公司 社团划分方法和装置
CN111724187A (zh) * 2019-03-21 2020-09-29 上海晶赞融宣科技有限公司 Dmp受众数据实时处理方法及装置、计算机可读存储介质
CN111902837A (zh) * 2018-03-27 2020-11-06 文化便利俱乐部株式会社 分析顾客的属性信息的装置、方法、及程序
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成***
CN112580902A (zh) * 2021-02-26 2021-03-30 腾讯科技(深圳)有限公司 对象数据处理方法、装置、计算机设备和存储介质
CN112685641A (zh) * 2020-12-31 2021-04-20 五八有限公司 一种信息处理方法及装置
CN113822309A (zh) * 2020-09-25 2021-12-21 京东科技控股股份有限公司 用户的分类方法、装置和非易失性计算机可读存储介质
CN114065042A (zh) * 2021-11-19 2022-02-18 恒生电子股份有限公司 用户需求预测方法、装置、电子设备及可读存储介质
CN114187060A (zh) * 2021-12-10 2022-03-15 北京金堤科技有限公司 归属企业数据确定方法及其装置
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN116226527A (zh) * 2023-03-03 2023-06-06 中浙信科技咨询有限公司 通过居民大数据实现行为预测的数字化社区治理方法
CN116523218A (zh) * 2023-04-11 2023-08-01 深圳微应科技有限公司 一种服务人员的匹配方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106934412A (zh) * 2015-12-31 2017-07-07 中国科学院深圳先进技术研究院 一种用户行为分类方法及***
CN107122390A (zh) * 2017-03-04 2017-09-01 华数传媒网络有限公司 基于用户群组的推荐***构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106934412A (zh) * 2015-12-31 2017-07-07 中国科学院深圳先进技术研究院 一种用户行为分类方法及***
CN107122390A (zh) * 2017-03-04 2017-09-01 华数传媒网络有限公司 基于用户群组的推荐***构建方法

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110266510A (zh) * 2018-03-21 2019-09-20 腾讯科技(深圳)有限公司 网络控制策略生成方法及装置、网络控制方法、存储介质
CN111902837A (zh) * 2018-03-27 2020-11-06 文化便利俱乐部株式会社 分析顾客的属性信息的装置、方法、及程序
CN108647818A (zh) * 2018-05-08 2018-10-12 山东浪潮通软信息科技有限公司 一种预测企业涉税风险的方法及装置
CN110472645A (zh) * 2018-05-09 2019-11-19 北京京东尚科信息技术有限公司 一种选择目标对象的方法和装置
CN108961071B (zh) * 2018-06-01 2023-07-21 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN108961071A (zh) * 2018-06-01 2018-12-07 中国平安人寿保险股份有限公司 自动预测组合业务收益的方法及终端设备
CN109389426A (zh) * 2018-09-26 2019-02-26 深圳壹账通智能科技有限公司 商品价格层次的获取方法、***、计算机设备和存储介质
CN109409936A (zh) * 2018-09-28 2019-03-01 深圳壹账通智能科技有限公司 用户消费画像生成方法、装置、设备及可读存储介质
CN109523056B (zh) * 2018-10-12 2023-11-07 中国平安人寿保险股份有限公司 对象能力分类预测方法及装置、电子设备、存储介质
CN109523056A (zh) * 2018-10-12 2019-03-26 中国平安人寿保险股份有限公司 对象能力分类预测方法及装置、电子设备、存储介质
CN109409949A (zh) * 2018-10-17 2019-03-01 北京字节跳动网络技术有限公司 用户群体分类的确定方法、装置、电子设备及存储介质
WO2020082596A1 (zh) * 2018-10-23 2020-04-30 深圳壹账通智能科技有限公司 基于数据处理的用户画像自动生成方法和***
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109522556A (zh) * 2018-11-16 2019-03-26 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109522197A (zh) * 2018-11-23 2019-03-26 浙江每日互动网络科技股份有限公司 一种用户app行为的预测方法
CN109753783A (zh) * 2018-11-28 2019-05-14 北京友信科技有限公司 一种基于机器学习的单点登录方法、装置及计算机可读存储介质
CN109815085B (zh) * 2018-12-29 2021-10-22 北京城市网邻信息技术有限公司 告警数据的分类方法、装置和电子设备及存储介质
CN109815085A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 告警数据的分类方法、装置和电子设备及存储介质
CN109871809A (zh) * 2019-02-22 2019-06-11 福州大学 一种基于语义网的机器学习流程智能组装方法
CN109902747B (zh) * 2019-03-01 2023-08-29 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN109918408A (zh) * 2019-03-01 2019-06-21 成都农村商业银行股份有限公司 一种黑名单更新方法、装置、设备及计算机可读存储介质
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN110069545B (zh) * 2019-03-07 2024-02-20 创新先进技术有限公司 一种行为数据评估方法及装置
CN110069545A (zh) * 2019-03-07 2019-07-30 阿里巴巴集团控股有限公司 一种行为数据评估方法及装置
CN111724187A (zh) * 2019-03-21 2020-09-29 上海晶赞融宣科技有限公司 Dmp受众数据实时处理方法及装置、计算机可读存储介质
CN110135701A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 控制规则的自动生成方法、装置、电子设备及可读介质
WO2020220823A1 (zh) * 2019-04-30 2020-11-05 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110084377B (zh) * 2019-04-30 2023-09-29 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110135901A (zh) * 2019-05-10 2019-08-16 重庆天蓬网络有限公司 一种企业用户画像构建方法、***、介质和电子设备
CN110298508A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 行为预测方法、装置及设备
CN110674839A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 异常用户识别方法、装置、存储介质及电子设备
CN110674839B (zh) * 2019-08-16 2023-11-24 平安科技(深圳)有限公司 异常用户识别方法、装置、存储介质及电子设备
CN110516748A (zh) * 2019-08-29 2019-11-29 泰康保险集团股份有限公司 业务处理方法、装置、介质及电子设备
CN111317448A (zh) * 2020-03-03 2020-06-23 南京鼓楼医院 一种分析视觉空间认知的方法及***
CN111317448B (zh) * 2020-03-03 2024-01-02 南京鼓楼医院 一种分析视觉空间认知的方法及***
CN111417021A (zh) * 2020-03-16 2020-07-14 广州虎牙科技有限公司 外挂识别方法、装置、计算机设备和可读存储介质
CN111581530A (zh) * 2020-05-07 2020-08-25 北京互金新融科技有限公司 社团划分方法和装置
CN113822309A (zh) * 2020-09-25 2021-12-21 京东科技控股股份有限公司 用户的分类方法、装置和非易失性计算机可读存储介质
CN113822309B (zh) * 2020-09-25 2024-04-16 京东科技控股股份有限公司 用户的分类方法、装置和非易失性计算机可读存储介质
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成***
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成***
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN112685641A (zh) * 2020-12-31 2021-04-20 五八有限公司 一种信息处理方法及装置
CN112580902A (zh) * 2021-02-26 2021-03-30 腾讯科技(深圳)有限公司 对象数据处理方法、装置、计算机设备和存储介质
CN114065042A (zh) * 2021-11-19 2022-02-18 恒生电子股份有限公司 用户需求预测方法、装置、电子设备及可读存储介质
CN114187060A (zh) * 2021-12-10 2022-03-15 北京金堤科技有限公司 归属企业数据确定方法及其装置
CN116226527A (zh) * 2023-03-03 2023-06-06 中浙信科技咨询有限公司 通过居民大数据实现行为预测的数字化社区治理方法
CN116226527B (zh) * 2023-03-03 2024-06-07 中浙信科技咨询有限公司 通过居民大数据实现行为预测的数字化社区治理方法
CN116523218A (zh) * 2023-04-11 2023-08-01 深圳微应科技有限公司 一种服务人员的匹配方法和***

Also Published As

Publication number Publication date
CN107818344B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN107818344A (zh) 用户行为进行分类和预测的方法和***
CN107908606A (zh) 基于不同信息源自动生成报表的方法和***
CN107025509B (zh) 基于业务模型的决策***和方法
CN109558530A (zh) 基于数据处理的用户画像自动生成方法和***
CN107230108A (zh) 业务数据的处理方法及装置
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN107615275A (zh) 估计用于运行数据挖掘服务的计算资源
CN107357874A (zh) 用户分类方法及装置、电子设备、存储介质
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN101546290A (zh) 提高面向对象型软件中类阶层质量预测准确度的方法
CN110399479A (zh) 搜索数据处理方法、装置、电子设备及计算机可读介质
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN112925911A (zh) 基于多模态数据的投诉分类方法及其相关设备
CN115391669A (zh) 一种智能推荐方法、装置、电子设备
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN112950347B (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN113450004A (zh) 电力信用报告生成方法、装置、电子设备及可读存储介质
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN108510003A (zh) 车联网大数据风控组合特征提取方法、装置及存储介质
CN107945034A (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN114625975B (zh) 一种基于知识图谱的客户行为分析***
CN107424026A (zh) 商家信誉评价方法和装置
CN113704407A (zh) 基于类别分析的投诉量分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180608

Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Applicant after: Shenzhen one ledger Intelligent Technology Co., Ltd.

Address before: 200030 Xuhui District, Shanghai Kai Bin Road 166, 9, 10 level.

Applicant before: Shanghai Financial Technologies Ltd

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant