CN112329816A - 数据分类方法、装置、电子设备和可读存储介质 - Google Patents

数据分类方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN112329816A
CN112329816A CN202011075308.4A CN202011075308A CN112329816A CN 112329816 A CN112329816 A CN 112329816A CN 202011075308 A CN202011075308 A CN 202011075308A CN 112329816 A CN112329816 A CN 112329816A
Authority
CN
China
Prior art keywords
behavior
data
target
sample
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011075308.4A
Other languages
English (en)
Inventor
薛淼
孟格思
李敏
王瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202011075308.4A priority Critical patent/CN112329816A/zh
Publication of CN112329816A publication Critical patent/CN112329816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据分类方法、装置、电子设备和可读存储介质,涉及计算机技术领域,终端侧程序可以记录用于表征用户的行为的数据,同样的,该数据对应的目标行为数据集也可以用于表征用户的行为,因此,根据目标行为数据集确定的目标行为特征同样可以用于表征用户的行为,进而,可以基于预先训练的行为分类模型和目标行为特征,预测用于表征用户行为方式的目标行为类别,另外,由于预先训练的行为分类模型的训练样本集中包括生成样本(也就是由行为特征样本生成模型生成的虚拟样本),使得训练样本集中的样本数量充足,即可以使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以更准确的预测用户的行为类别。

Description

数据分类方法、装置、电子设备和可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据分类方法、装置、电子设备和可读存储介质。
背景技术
目前,随着人们生活水平的提高,有越来越多的与个人信用相关的服务出现,例如汽车租赁服务等等,在这些服务中,用户的个人信用十分重要,一旦出现用户的失信行为(例如诈骗车辆或者利用租赁的车辆进行违法活动等),会对上述服务的提供者(例如汽车租赁公司)造成巨大的损失。
由于每个用户对于此类服务的使用频率很低,所以导致了整体的历史存有数据的数量较少,进而导致很难通过现有的历史存有数据对用户的信用等级进行划分,在相关技术中,需要依靠人工经验对每个用户的信用等级进行划分,使得工作效率低下。
发明内容
有鉴于此,本发明实施例提供一种数据分类方法、装置、电子设备和可读存储介质,以使得训练后的行为分类模型可以更准确的预测用户的行为类别。
第一方面,提供了一种数据分类方法,所述方法包括:
获取目标行为数据集,所述目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据;
基于所述目标行为数据集,确定目标行为特征,所述目标行为特征用于表征所述目标行为数据集对应的画像;以及
基于预先训练的行为分类模型,以所述目标行为特征作为输入,确定所述预先训练的行为分类模型输出的目标行为类别,所述预先训练的行为分类模型基于训练样本集训练确定,所述训练样本集包括多个生成样本,所述生成样本由预先训练的行为特征样本生成模型生成。
可选的,所述行为特征样本生成模型包括生成器模块和判别器模块,所述行为特征样本生成模型基于如下步骤进行训练:
获取第一预设数量的真实行为特征样本,所述真实行为特征样本用于表征采集到的行为数据对应的行为特征;
基于所述生成器模块生成第二预设数量的虚拟行为特征样本;
基于所述判别器模块,确定所述真实行为特征样本和所述虚拟行为特征样本之间的损失函数;以及
基于所述损失函数,调整所述行为特征样本生成模型的参数。
可选的,所述方法还包括:
获取调整参数后的生成器模块生成的多个虚拟行为特征;
基于所述判别器模块对所述多个虚拟行为特征进行判别操作,确定所述多个虚拟行为特征对应的判别概率,所述判别概率用于表征所述判别器模块判断所述虚拟行为特征是真实行为特征的概率,或者用于表征所述判别器模块判断所述虚拟行为特征是虚拟行为特征的概率;以及
响应于所述判别概率未处于预设阈值范围内,调整所述行为特征样本生成模型的参数,以使得所述判别概率处于预设阈值范围内。
可选的,所述训练样本集还包括所述真实行为特征样本、所述真实行为特征样本对应的标注和所述生成样本对应的标注;
所述行为分类模型基于如下步骤进行训练:
获取训练样本集;
将所述生成样本和所述真实行为特征样本作为输入,确定所述行为分类模型输出的行为类别;以及
基于所述行为类别、所述真实行为特征样本对应的标注和所述生成样本对应的标注,调整所述行为分类模型的参数。
可选的,所述目标行为数据集包括基本信息、表现信息和埋点信息,所述基本信息用于表征固有属性,所述表现信息用于表征信用行为,所述埋点信息用于表征预设的埋点算法所收集的数据;
所述获取目标行为数据集,包括:
从预先设置的第一数据库中获取所述埋点信息,所述第一数据库用于收集并预处理埋点数据,以确定所述埋点信息,所述预处理包括数据结构化处理;
从预先设置的第二数据库中获取所述基本信息和所述表现信息,所述第二数据库用于收集并预处理基本数据和表现数据,以确定所述基本信息和所述表现信息;以及
基于所述基本信息、所述表现信息和所述埋点信息,确定所述目标行为数据集。
可选的,所述第一数据库为数据仓库hive处理器,所述第二数据库为全链路处理器。
可选的,所述行为特征样本生成模型基于生成式对抗网络GAN建立,所述行为分类模型包括逻辑回归模型、梯度下降树GBDT模型、分布式梯度增强库XGBoost、深度学习模型或者端到端end-to-end模型中的至少一种。
第二方面,提供了一种数据分类装置,所述装置包括:
第一获取模块,用于获取目标行为数据集,所述目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据;
第一确定模块,用于基于所述目标行为数据集,确定目标行为特征,所述目标行为特征用于表征所述目标行为数据集对应的画像;以及
第二确定模块,用于基于预先训练的行为分类模型,以所述目标行为特征作为输入,确定所述预先训练的行为分类模型输出的目标行为类别,所述预先训练的行为分类模型基于训练样本集训练确定,所述训练样本集包括多个生成样本,所述生成样本由预先训练的行为特征样本生成模型生成。
可选的,所述行为特征样本生成模型包括生成器模块和判别器模块,所述装置还包括:
第二获取模块,用于获取第一预设数量的真实行为特征样本,所述真实行为特征样本用于表征采集到的行为数据对应的行为特征;
所述生成器模块,用于生成第二预设数量的虚拟行为特征样本;
所述判别器模块,用于确定所述真实行为特征样本和所述虚拟行为特征样本之间的损失函数;以及
第一调整模块,用于基于所述损失函数,调整所述行为特征样本生成模型的参数。
可选的,所述装置还包括:
第三获取模块,用于获取调整参数后的生成器模块生成的多个虚拟行为特征;
所述判别器模块,用于对所述多个虚拟行为特征进行判别操作,确定所述多个虚拟行为特征对应的判别概率,所述判别概率用于表征所述判别器模块判断所述虚拟行为特征是真实行为特征的概率,或者用于表征所述判别器模块判断所述虚拟行为特征是虚拟行为特征的概率;以及
第二调整模块,用于响应于所述判别概率未处于预设阈值范围内,调整所述行为特征样本生成模型的参数,以使得所述判别概率处于预设阈值范围内。
可选的,所述训练样本集还包括所述真实行为特征样本、所述真实行为特征样本对应的标注和所述生成样本对应的标注;
所述装置还包括:
第四获取模块,用于获取训练样本集;
第三确定模块,用于将所述生成样本和所述真实行为特征样本作为输入,确定所述行为分类模型输出的行为类别;以及
第三调整模块,用于基于所述行为类别、所述真实行为特征样本对应的标注和所述生成样本对应的标注,调整所述行为分类模型的参数。
可选的,所述目标行为数据集包括基本信息、表现信息和埋点信息,所述基本信息用于表征固有属性,所述表现信息用于表征信用行为,所述埋点信息用于表征预设的埋点算法所收集的数据;
所述第一获取模块,具体用于:
从预先设置的第一数据库中获取所述埋点信息,所述第一数据库用于收集并预处理埋点数据,以确定所述埋点信息,所述预处理包括数据结构化处理;
从预先设置的第二数据库中获取所述基本信息和所述表现信息,所述第二数据库用于收集并预处理基本数据和表现数据,以确定所述基本信息和所述表现信息;以及
基于所述基本信息、所述表现信息和所述埋点信息,确定所述目标行为数据集。
可选的,所述第一数据库为数据仓库hive处理器,所述第二数据库为全链路处理器。
可选的,所述行为特征样本生成模型基于生成式对抗网络GAN建立,所述行为分类模型包括逻辑回归模型、梯度下降树GBDT模型、分布式梯度增强库XGBoost、深度学习模型或者端到端end-to-end模型中的至少一种。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
在本发明实施例中,终端侧程序可以记录人机交互行为和网络访问行为数据,该数据可以用于表征用户的行为,同样的,该数据对应的目标行为数据集也可以用于表征用户的行为,因此,服务器根据目标行为数据集确定的目标行为特征同样可以用于表征用户的行为,进而,服务器可以基于预先训练的行为分类模型和目标行为特征,预测用于表征用户行为方式的目标行为类别,另外,由于预先训练的行为分类模型的训练样本集中包括生成样本(也就是由行为特征样本生成模型生成的虚拟样本),使得训练样本集中的样本数量充足,即可以使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以更准确的预测用户的行为类别。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种数据分类***的示意图;
图2为本发明实施例提供的一种数据分类方法的流程图;
图3为本发明实施例提供的另一种数据分类方法的流程图;
图4为本发明实施例提供的一种行为特征样本生成模型训练过程示意图;
图5为本发明实施例提供的另一种数据分类方法的流程图;
图6为本发明实施例提供的一种数据分类方法的示例性流程图;
图7为本发明实施例提供的一种数据分类装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明实施例,可以基于预先训练好的行为分类模型,通过终端侧程序记录的多个目标用户的人机交互行为和网络访问行为数据,对目标用户进行行为分类。
具体的,如图1所示,图1为本发明实施例提供的一种数据分类***的示意图,该示意图包括:多个终端设备1、服务器2和用户A;
其中,终端设备1可以是智能手机、平板电脑或者个人计算机(PersonalComputer,PC)等,服务器2可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
在本发明实施例中,终端设备1可以是用户A所使用的智能手机或者PC等,当用户A使用终端设备1时,往往会产生人机交互行为和网络访问行为数据,这些数据可以用于表征用户的行为分类属性。
进而,服务器2可以基于与各终端设备1之间的网络通信连接,收集用户A使用终端设备1产生的人机交互行为和网络访问行为数据,然后基于预先设置的行为分类模型,根据用户A所对应的数据,确定用户A的行为类别。
在一种场景中,用户A的行为类别可以是用户A的信用等级分类,即用户A使用终端设备1产生的人机交互行为和网络访问行为数据具体可以用于表征用户的信用等级,进而,服务器2可以根据用户A对应的数据以及预先设置的行为分类模型,确定用户A对应的信用等级分类(例如信用极好、信用良好或者信用较差等)。
在另一种场景中,用户A的行为类别可以是用户A的习惯分类,用户A使用终端设备1产生的人机交互行为和网络访问行为数据具体还可以用于表征用户的行为习惯,进而,服务器2可以根据用户A对应的数据以及预先设置的行为分类模型,确定用户A对应的行为习惯分类(例如稳健型或者风险偏好型等)。
为了更清楚的进行说明,下面将结合具体实施方式,对本发明实施例提供的一种数据分类方法进行详细的说明,如图2所示,具体步骤如下:
在步骤100,获取目标行为数据集。
其中,目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据。
在步骤200,基于目标行为数据集,确定目标行为特征。
其中,目标行为特征用于表征目标行为数据集对应的画像。
在步骤300,基于预先训练的行为分类模型,以目标行为特征作为输入,确定预先训练的行为分类模型输出的目标行为类别。
其中,预先训练的行为分类模型基于样本训练集训练确定,样本训练集包括多个生成样本,生成样本由预先训练的行为特征样本生成模型生成。
在本发明实施例中,终端侧程序可以记录人机交互行为和网络访问行为数据,该数据可以用于表征用户的行为,同样的,该数据对应的目标行为数据集也可以用于表征用户的行为,因此,服务器根据目标行为数据集确定的目标行为特征同样可以用于表征用户的行为,进而,服务器可以基于预先训练的行为分类模型和目标行为特征,预测用于表征用户行为方式的目标行为类别,另外,由于预先训练的行为分类模型的训练样本集中包括生成样本(也就是由行为特征样本生成模型生成的虚拟样本),使得训练样本集中的样本数量充足,即可以使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以更准确的预测用户的行为类别。
进一步的,行为特征样本生成模型可以是基于生成式对抗网络(GenerativeAdversarial Networks,GAN)建立的模型,具体可以包括生成器(generator)模块和判别器(discriminator)模块。
其中,GAN模型是一种深度学习模型,训练后的GAN模型可以基于随机噪声生成具有指定属性的数据。
生成器模块可以是一个神经网络,其输入可以是一个随机数据(随机噪声),输出一个指定数据,进而,本发明实施例可以基于生成器模块的功能,生成虚拟行为特征样本,实现了扩充数据集的目的。
判别器模块也可以是一个神经网络,其输入可以是真实数据集和虚拟数据集(也就是生成器模块生成的数据集),输出是判别结果,例如,当判别器模块接收到数据A后,若判别器模块输出为“1”,则判别器模块判断数据A为真实数据,即数据A来自真实数据集,若判别器模块输出为“0”,则判别器模块判断数据A为虚拟数据,即数据A来自虚拟数据集。
综上,在本发明实施例中,生成器模块可以用于生成虚拟数据,判别器模块可以用于判断数据是否是虚拟数据,即生成器模块和判别器模块的结合形成了一个对抗网络。
为了使得生成器模块生成的虚拟数据与真实数据相似,本发明实施例可以对特征样本生成模型进行训练,使得训练后的判别器模块无法区分真实数据和虚拟数据,即使得训练后的判别器模块无论是针对真实数据还是针对虚拟数据,其判别概率均为50%(判别概率至判别器模块判断某数据为真实数据或者虚拟数据的概率)。
具体的,如图3所示,可以基于如下步骤对行为特征样本生成模型进行训练:
在步骤31,获取第一预设数量的真实行为特征样本。
其中,真实行为特征样本用于表征采集到的行为数据对应的行为特征。
为了更好的进行解释说明,本发明实施例还提供一种行为特征样本生成模型训练过程示意图,如图4所示,该示意图以GAN模型为例进行举例说明,该示意图包括:生成器模块、判别器模块、随机噪声X、虚拟行为特征样本Y、真实行为特征样本Z和损失函数。
结合图4所示内容,步骤31中第一预设数量的真实行为特征样本即为图4中的真实行为特征样本Z,其中,第一预设数量可以根据实际情况进行适当调整,本发明实施例对第一预设数量不做限定。
在步骤32,基于生成器模块生成第二预设数量的虚拟行为特征样本。
结合图4所示内容,第二预设数量的虚拟行为特征样本即为图4中的虚拟行为特征样本Y,具体的,可以将随机噪声X作为生成器模块的输入,生成器模块可以基于该随机噪声X生成虚拟行为特征样本Y,其中,第二预设数量可以根据实际情况进行调整,本发明实施例不做限定。
在步骤33,基于判别器模块,确定真实行为特征样本和虚拟行为特征样本之间的损失函数(loss function)。
其中,损失函数可以用于调整模型参数,损失函数一般包括铰链损失函数、交叉熵损失函数和指数损失函数,本发明实施例对损失函数的选取不做限定。
在步骤34,基于损失函数,调整行为特征样本生成模型的参数。
在实际应用中,经过一次调整的行为特征样本生成模型往往无法收敛,因此,本发明实施例需要针对调整后的行为特征样本生成模型进行验证,具体的,该过程可以执行为:获取调整参数后的生成器模块生成的多个虚拟行为特征;基于判别器模块对多个虚拟行为特征进行判别操作,确定多个虚拟行为特征对应的判别概率;以及响应于判别概率未处于预设阈值范围内,调整行为特征样本生成模型的参数,以使得判别概率处于预设阈值范围内。
其中,判别概率用于表征判别器模块判断虚拟行为特征是真实行为特征的概率,或者用于表征判别器模块判断虚拟行为特征是虚拟行为特征的概率。
需要说明的,预设阈值范围可以根据实际情况进行适当调整,例如预设阈值范围可以是0.49-0.51,另外,也可以直接设置一个阈值(例如0.5),即当判别器模块输出的判别概率为0.5时,行为特征样本生成模型的训练完成。
结合上述训练以及验证的过程,本发明实施例对于行为特征样本生成模型的训练实质上是一个循环调整参数的过程,即本发明实施例在获取m个真实数据以及生成器模块生成的n个虚拟数据后,可以基于判别器对真实数据和虚拟数据进行判别,并计算损失函数。
然后,本发明实施例可以基于上述验证的过程,循环k次更新判别器模块的参数和生成器模块的参数,当验证完成后(即调整参数后的判别器模块输出的判别概率处于预设阈值范围内),行为特征样本生成模型的训练完成。
其中,本发明实施例对上述m、n和k的数值不做限定。
当行为特征样本生成模型的训练完成后,行为特征样本生成模型可以用于输出生成样本,该样本与真实行为特征样本均可以作为行为分类模型的训练样本,进而,可以基于包含生成样本和真实行为特征样本的训练集,对行为分类模型进行训练。
其中,行为分类模型包括逻辑回归(Logistic Regression,LR)模型、梯度下降树(Gradient Boosting Decision Tree,GBDT)模型、分布式梯度增强库(eXtreme GradientBoosting,XGBoost)、深度学习模型或者端到端(end-to-end)模型中的至少一种。
上述模型均可以作为行为分类模型中的一部分,其中,LR模型是机器学习中做分类任务常用的模型,其本质是一种广义的线性回归分析模型,LR模型的模型结构简单,训练速度快,而且对于输出变量有很好的概率解释。
GBDT模型是一种基于Gradient Boosting策略训练的Decision Tree模型,其可以基于决策树实现数据的分类功能。
另外,单独使用的GBDT模型容易出现过拟合现象,因此,在实际应用中,可以结合GBDT模型以及LR模型实现数据分类功能,也就是通过GBDT+LR模型实现行为分类。
XGBoost是一种可扩展机器学习***,该***可以作为开源的软件包,同时,该***的影响已经在大量的机器学习和数据挖掘挑战中被广泛地认可,在本发明实施例中,随着数据量的不断增大,XGBoost可以起到良好的分类作用。
深度学习模型是基于深度神经网络建立的模型,其可以基于良好的学习能力,实现准确的分类。
end-to-end模型区别于传统的机器学习模型(由多个独立的模块组成),其整合了多个模块,将所有的模块作为一个整体,简化了模型训练的流程,增加了容错率。
更进一步的,如图5所示,行为分类模型训练的过程可以包括以下步骤:
在步骤51,获取训练样本集。
其中,训练样本集除了生成样本外,还包括真实行为特征样本、真实行为特征样本对应的标注和生成样本对应的标注。
真实行为特征样本的标注可以基于该真实行为特征样本对应的数据进行人为标注,生成样本的标注可以基于该生成样本和各真实行为特征样本的相似度进行标注,即生成样本的标注可以是与该生成样本最相似的真实行为特征样本相同的标注。
在步骤52,将生成样本和真实行为特征样本作为输入,确定行为分类模型输出的行为类别。
在步骤53,基于行为类别、真实行为特征样本对应的标注和生成样本对应的标注,调整行为分类模型的参数。
在本发明实施例中,由于训练后的行为特征样本生成模型可以生成大量生成样本,所以行为分类模型的训练样本集中包含了充足的样本数量,使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以准确预测行为类别。
当行为分类模型的训练完成后,可以基于训练后的行为分类模型和目标行为数据集确定目标行为类别。
其中,目标行为数据集可以包括基本信息、表现信息和埋点信息,基本信息用于表征固有属性,表现信息用于表征信用行为,埋点信息用于表征预设的埋点算法所收集的数据。
例如,在一个汽车租赁的应用场景中,目标用户可以为使用汽车租赁服务的用户,进而,目标行为数据集中的基本信息可以包括目标用户的性别、年龄、出生年月、工作性质和是否已婚等。
表现信息可以用于表征目标用户在汽车租赁中和汽车租赁后的表现数据,例如目标用户是否按期归还租赁车辆、目标用户是否同时租赁其它车辆和用户租赁完成后是否续租等。
埋点信息可以用于表征目标用户的网络访问行为数据,例如目标用户在汽车租赁程序中的序列性行为(点击序列等等)。
具体的,获取目标行为数据集步骤可以执行为:从预先设置的第一数据库中获取埋点信息;从预先设置的第二数据库中获取基本信息和表现信息;基于基本信息、表现信息和埋点信息,确定目标行为数据集。
其中,第一数据库用于收集并预处理埋点数据,以确定埋点信息,第二数据库用于收集并预处理基本数据和表现数据,以确定基本信息和表现信息,预处理包括数据结构化处理。
进一步的,第一数据库可以为数据仓库(hive)处理器,第二数据库可以为全链路处理器。
hive是基于海杜普(Hadoop)(一种分布式***基础架构)的数据仓库工具,其可以用于进行数据提取、转化、加载,在实际应用中,hive可以用于大数据的存储和预处理等功能,全链路处理器可以用于存储和预处理基本数据和表现数据。
结合上述各实施方式,如图6所示,图6为本发明实施例提供的一种数据分类方法的示例性流程图,该示意图包括:埋点信息采集装置、基本信息采集装置、表现信息采集装置、hive处理器、全链路处理器、用户信用画像模块和行为分类模型。
具体的,埋点信息采集装置可以采集目标用户对应的埋点信息,基本信息采集装置可以采集目标用户对应的基本信息,表现信息采集装置可以采集目标用户对应的表现信息。
然后,埋点信息采集装置可以向hive处理器发送采集到的埋点信息,以使得hive处理器预处理(数据结构化处理)并存储目标用户对应的埋点信息。
基本信息采集装置可以向全链路处理器发送采集到的基本信息,以使得全链路处理器预处理并存储目标用户对应的基本信息,同样的,表现信息采集装置可以向全链路处理器发送采集到的表现信息,以使得全链路处理器预处理并存储目标用户对应的表现信息。
针对目标用户进行信用等级分类时,用户信用画像模块可以从hive处理器提取目标用户的埋点信息、从全链路处理器提取目标用户的基本信息和表现信息,然后,用户信用画像模块可以基于目标用户的埋点信息、基本信息和表现信息确定目标用户对应的目标行为特征,该目标行为特征即表征了目标用户的用户画像。
进一步的,用户信用画像模块可以向预先训练的行为分类模型发送目标行为特征,然后,该预先训练的行为分类模型可以输出目标用户对应的信用等级分类(目标用户的信用等级分类即为目标用户的目标行为类别)。
在本发明实施例中,终端侧程序可以记录目标用户的信用行为数据,因此,用户信用画像模块可以根据目标用户的信用行为数据确定目标用户的信用画像,进而,预先训练的行为分类模型可以根据目标用户的信用画像,预测目标用户的信用等级分类,另外,由于预先训练的行为分类模型的训练样本集中包括生成样本(也就是由行为特征样本生成模型生成的虚拟样本),使得训练样本集中的样本数量充足,即可以使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以更准确的预测目标用户的信用等级分类。
基于相同的技术构思,本发明实施例还提供了一种数据分类装置,如图7所示,该装置包括:第一获取模块71、第一确定模块72和第二确定模块73;
第一获取模块71,用于获取目标行为数据集,目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据;
第一确定模块72,用于基于目标行为数据集,确定目标行为特征,目标行为特征用于表征目标行为数据集对应的画像;以及
第二确定模块73,用于基于预先训练的行为分类模型,以目标行为特征作为输入,确定预先训练的行为分类模型输出的目标行为类别,预先训练的行为分类模型基于训练样本集训练确定,训练样本集包括多个生成样本,生成样本由预先训练的行为特征样本生成模型生成。
在本发明实施例中,终端侧程序可以记录人机交互行为和网络访问行为数据,该数据可以用于表征用户的行为,同样的,该数据对应的目标行为数据集也可以用于表征用户的行为,因此,服务器根据目标行为数据集确定的目标行为特征同样可以用于表征用户的行为,进而,服务器可以基于预先训练的行为分类模型和目标行为特征,预测用于表征用户行为方式的目标行为类别,另外,由于预先训练的行为分类模型的训练样本集中包括生成样本(也就是由行为特征样本生成模型生成的虚拟样本),使得训练样本集中的样本数量充足,即可以使得行为分类模型可以得到充分的训练,进而使得训练后的行为分类模型可以更准确的预测用户的行为类别。
图8是本发明实施例的电子设备的示意图。如图8所示,图8所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器81通过执行存储器82所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起,同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置85通过输入/输出(I/O)控制器86与***相连。
需要说明的是,处理器81用于执行存储器82上所存放的程序时,还用于实现上述方法实施例中描述的其他步骤,可参考上述方法实施例中的相关描述,此处不再赘述。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种数据分类方法,其特征在于,所述方法包括:
获取目标行为数据集,所述目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据;
基于所述目标行为数据集,确定目标行为特征,所述目标行为特征用于表征所述目标行为数据集对应的画像;以及
基于预先训练的行为分类模型,以所述目标行为特征作为输入,确定所述预先训练的行为分类模型输出的目标行为类别,所述预先训练的行为分类模型基于训练样本集训练确定,所述训练样本集包括多个生成样本,所述生成样本由预先训练的行为特征样本生成模型生成。
2.根据权利要求1所述的方法,其特征在于,所述行为特征样本生成模型包括生成器模块和判别器模块,所述行为特征样本生成模型基于如下步骤进行训练:
获取第一预设数量的真实行为特征样本,所述真实行为特征样本用于表征采集到的行为数据对应的行为特征;
基于所述生成器模块生成第二预设数量的虚拟行为特征样本;
基于所述判别器模块,确定所述真实行为特征样本和所述虚拟行为特征样本之间的损失函数;以及
基于所述损失函数,调整所述行为特征样本生成模型的参数。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取调整参数后的生成器模块生成的多个虚拟行为特征;
基于所述判别器模块对所述多个虚拟行为特征进行判别操作,确定所述多个虚拟行为特征对应的判别概率,所述判别概率用于表征所述判别器模块判断所述虚拟行为特征是真实行为特征的概率,或者用于表征所述判别器模块判断所述虚拟行为特征是虚拟行为特征的概率;以及
响应于所述判别概率未处于预设阈值范围内,调整所述行为特征样本生成模型的参数,以使得所述判别概率处于预设阈值范围内。
4.根据权利要求2或3所述的方法,其特征在于,所述训练样本集还包括所述真实行为特征样本、所述真实行为特征样本对应的标注和所述生成样本对应的标注;
所述行为分类模型基于如下步骤进行训练:
获取训练样本集;
将所述生成样本和所述真实行为特征样本作为输入,确定所述行为分类模型输出的行为类别;以及
基于所述行为类别、所述真实行为特征样本对应的标注和所述生成样本对应的标注,调整所述行为分类模型的参数。
5.根据权利要求1所述的方法,其特征在于,所述目标行为数据集包括基本信息、表现信息和埋点信息,所述基本信息用于表征固有属性,所述表现信息用于表征信用行为,所述埋点信息用于表征预设的埋点算法所收集的数据;
所述获取目标行为数据集,包括:
从预先设置的第一数据库中获取所述埋点信息,所述第一数据库用于收集并预处理埋点数据,以确定所述埋点信息,所述预处理包括数据结构化处理;
从预先设置的第二数据库中获取所述基本信息和所述表现信息,所述第二数据库用于收集并预处理基本数据和表现数据,以确定所述基本信息和所述表现信息;以及
基于所述基本信息、所述表现信息和所述埋点信息,确定所述目标行为数据集。
6.根据权利要求5所述的方法,其特征在于,所述第一数据库为数据仓库hive处理器,所述第二数据库为全链路处理器。
7.根据权利要求1所述的方法,其特征在于,所述行为特征样本生成模型基于生成式对抗网络GAN建立,所述行为分类模型包括逻辑回归模型、梯度下降树GBDT模型、分布式梯度增强库XGBoost、深度学习模型或者端到端end-to-end模型中的至少一种。
8.一种数据分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标行为数据集,所述目标行为数据集包括通过终端侧程序记录的多个人机交互行为和网络访问行为数据;
第一确定模块,用于基于所述目标行为数据集,确定目标行为特征,所述目标行为特征用于表征所述目标行为数据集对应的画像;以及
第二确定模块,用于基于预先训练的行为分类模型,以所述目标行为特征作为输入,确定所述预先训练的行为分类模型输出的目标行为类别,所述预先训练的行为分类模型基于训练样本集训练确定,所述训练样本集包括多个生成样本,所述生成样本由预先训练的行为特征样本生成模型生成。
9.根据权利要求8所述的装置,其特征在于,所述行为特征样本生成模型包括生成器模块和判别器模块,所述装置还包括:
第二获取模块,用于获取第一预设数量的真实行为特征样本,所述真实行为特征样本用于表征采集到的行为数据对应的行为特征;
所述生成器模块,用于生成第二预设数量的虚拟行为特征样本;
所述判别器模块,用于确定所述真实行为特征样本和所述虚拟行为特征样本之间的损失函数;以及
第一调整模块,用于基于所述损失函数,调整所述行为特征样本生成模型的参数。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取调整参数后的生成器模块生成的多个虚拟行为特征;
所述判别器模块,用于对所述多个虚拟行为特征进行判别操作,确定所述多个虚拟行为特征对应的判别概率,所述判别概率用于表征所述判别器模块判断所述虚拟行为特征是真实行为特征的概率,或者用于表征所述判别器模块判断所述虚拟行为特征是虚拟行为特征的概率;以及
第二调整模块,用于响应于所述判别概率未处于预设阈值范围内,调整所述行为特征样本生成模型的参数,以使得所述判别概率处于预设阈值范围内。
11.根据权利要求9或10所述的装置,其特征在于,所述训练样本集还包括所述真实行为特征样本、所述真实行为特征样本对应的标注和所述生成样本对应的标注;
所述装置还包括:
第四获取模块,用于获取训练样本集;
第三确定模块,用于将所述生成样本和所述真实行为特征样本作为输入,确定所述行为分类模型输出的行为类别;以及
第三调整模块,用于基于所述行为类别、所述真实行为特征样本对应的标注和所述生成样本对应的标注,调整所述行为分类模型的参数。
12.根据权利要求8所述的装置,其特征在于,所述目标行为数据集包括基本信息、表现信息和埋点信息,所述基本信息用于表征固有属性,所述表现信息用于表征信用行为,所述埋点信息用于表征预设的埋点算法所收集的数据;
所述第一获取模块,具体用于:
从预先设置的第一数据库中获取所述埋点信息,所述第一数据库用于收集并预处理埋点数据,以确定所述埋点信息,所述预处理包括数据结构化处理;
从预先设置的第二数据库中获取所述基本信息和所述表现信息,所述第二数据库用于收集并预处理基本数据和表现数据,以确定所述基本信息和所述表现信息;以及
基于所述基本信息、所述表现信息和所述埋点信息,确定所述目标行为数据集。
13.根据权利要求12所述的装置,其特征在于,所述第一数据库为数据仓库hive处理器,所述第二数据库为全链路处理器。
14.根据权利要求8所述的装置,其特征在于,所述行为特征样本生成模型基于生成式对抗网络GAN建立,所述行为分类模型包括逻辑回归模型、梯度下降树GBDT模型、分布式梯度增强库XGBoost、深度学习模型或者端到端end-to-end模型中的至少一种。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN202011075308.4A 2020-10-09 2020-10-09 数据分类方法、装置、电子设备和可读存储介质 Pending CN112329816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011075308.4A CN112329816A (zh) 2020-10-09 2020-10-09 数据分类方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011075308.4A CN112329816A (zh) 2020-10-09 2020-10-09 数据分类方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN112329816A true CN112329816A (zh) 2021-02-05

Family

ID=74313425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011075308.4A Pending CN112329816A (zh) 2020-10-09 2020-10-09 数据分类方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112329816A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948412A (zh) * 2021-04-21 2021-06-11 携程旅游网络技术(上海)有限公司 航班库存更新方法、***、电子设备和存储介质
CN112990480A (zh) * 2021-03-10 2021-06-18 北京嘀嘀无限科技发展有限公司 构建模型的方法、装置、电子设备和存储介质
CN113011966A (zh) * 2021-03-18 2021-06-22 中国光大银行股份有限公司 基于深度学习的信用评分方法及装置
CN113850309A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种训练样本生成方法及联邦学习方法
CN114282684A (zh) * 2021-12-24 2022-04-05 支付宝(杭州)信息技术有限公司 训练用户相关的分类模型、进行用户分类的方法及装置
CN114493781A (zh) * 2022-01-25 2022-05-13 工银科技有限公司 用户行为预测方法、装置、电子设备及存储介质
CN114510305A (zh) * 2022-01-20 2022-05-17 北京字节跳动网络技术有限公司 模型训练方法、装置、存储介质及电子设备
CN115035722A (zh) * 2022-06-20 2022-09-09 浙江嘉兴数字城市实验室有限公司 基于时空特征和社交媒体相结合的道路安全风险预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及***
CN109492104A (zh) * 2018-11-09 2019-03-19 北京京东尚科信息技术有限公司 意图分类模型的训练方法、分类方法、***、设备和介质
CN109543740A (zh) * 2018-11-14 2019-03-29 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
CN109766911A (zh) * 2018-12-04 2019-05-17 深圳先进技术研究院 一种行为预测方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类***和方法
CN110647921A (zh) * 2019-09-02 2020-01-03 腾讯科技(深圳)有限公司 一种用户行为预测方法、装置、设备及存储介质
CN110781929A (zh) * 2019-10-12 2020-02-11 腾讯科技(深圳)有限公司 信用预测模型的训练方法、预测方法及装置、介质和设备
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及***
CN109492104A (zh) * 2018-11-09 2019-03-19 北京京东尚科信息技术有限公司 意图分类模型的训练方法、分类方法、***、设备和介质
CN109543740A (zh) * 2018-11-14 2019-03-29 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
CN109766911A (zh) * 2018-12-04 2019-05-17 深圳先进技术研究院 一种行为预测方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类***和方法
CN110647921A (zh) * 2019-09-02 2020-01-03 腾讯科技(深圳)有限公司 一种用户行为预测方法、装置、设备及存储介质
CN110781929A (zh) * 2019-10-12 2020-02-11 腾讯科技(深圳)有限公司 信用预测模型的训练方法、预测方法及装置、介质和设备
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990480A (zh) * 2021-03-10 2021-06-18 北京嘀嘀无限科技发展有限公司 构建模型的方法、装置、电子设备和存储介质
CN113011966A (zh) * 2021-03-18 2021-06-22 中国光大银行股份有限公司 基于深度学习的信用评分方法及装置
CN112948412A (zh) * 2021-04-21 2021-06-11 携程旅游网络技术(上海)有限公司 航班库存更新方法、***、电子设备和存储介质
CN112948412B (zh) * 2021-04-21 2024-03-12 携程旅游网络技术(上海)有限公司 航班库存更新方法、***、电子设备和存储介质
CN113850309A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种训练样本生成方法及联邦学习方法
CN114282684A (zh) * 2021-12-24 2022-04-05 支付宝(杭州)信息技术有限公司 训练用户相关的分类模型、进行用户分类的方法及装置
CN114510305A (zh) * 2022-01-20 2022-05-17 北京字节跳动网络技术有限公司 模型训练方法、装置、存储介质及电子设备
CN114510305B (zh) * 2022-01-20 2024-01-23 北京字节跳动网络技术有限公司 模型训练方法、装置、存储介质及电子设备
CN114493781A (zh) * 2022-01-25 2022-05-13 工银科技有限公司 用户行为预测方法、装置、电子设备及存储介质
CN115035722A (zh) * 2022-06-20 2022-09-09 浙江嘉兴数字城市实验室有限公司 基于时空特征和社交媒体相结合的道路安全风险预测方法
CN115035722B (zh) * 2022-06-20 2024-04-05 浙江嘉兴数字城市实验室有限公司 基于时空特征和社交媒体相结合的道路安全风险预测方法

Similar Documents

Publication Publication Date Title
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN108416198B (zh) 人机识别模型的建立装置、方法及计算机可读存储介质
CN107229708B (zh) 一种个性化出行服务大数据应用***及方法
CN110163647B (zh) 一种数据处理方法及装置
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN110069545B (zh) 一种行为数据评估方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和***
CN109685104B (zh) 一种识别模型的确定方法和装置
CN113011889B (zh) 账号异常识别方法、***、装置、设备及介质
WO2024067387A1 (zh) 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质
EP3726441A1 (en) Company bankruptcy prediction system and operating method therefor
CN103810162A (zh) 推荐网络信息的方法和***
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN114187036A (zh) 一种基于行为特征识别的互联网广告智能推荐管理***
CN112070559A (zh) 状态获取方法和装置、电子设备和存储介质
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN114238764A (zh) 基于循环神经网络的课程推荐方法、装置及设备
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及***
CN117608889A (zh) 基于日志语义的异常检测方法以及相关设备
CN117235633A (zh) 机构分类方法、装置、计算机设备及存储介质
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination