CN105844497A

CN105844497A - 用户数据的预测的方法及预测装置

Info

Publication number: CN105844497A
Application number: CN201610201566.XA
Authority: CN
Inventors: 左平地
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-10

Abstract

本发明提供了用户数据的预测方法及预测装置，该方法包括：依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据；计算各层次间用户数据的转移概率；利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵；将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。通过本发明，可针对不同层次间用户数据的转移概率进行数据分析及建模，以确定各层次间用户数据的转移矩阵，通过用户在各层次的转移状态训练得到的转移矩阵实现了对用户数据多维度的分析，为预测结果的精确性提供了可靠的保障，同时精确的预测用户数据可为产品的技术调优及市场决策提供良好的数据参考依据。

Description

用户数据的预测的方法及预测装置

技术领域

本发明涉及计算机技术领域，具体而言，本发明涉及一种用户数据的预测的方法，及一种用户数据的预测装置。

背景技术

随着互联网的兴起，各种互联网应用产品的种类正在以惊人的速度增长，因此，各应用厂商为争取各自用户群体的竞争也尤为激烈。但是，由于当前互联网用户的数量较为平稳，各应用厂商扩大各自用户的难度也越来越大，因此需要一种用户数据的预测方法，通过用户数据的预测对产品的技术调优及市场决策提供良好的数据参考依据。在拥有巨大用户数量的情况下，现有的预测方案只针对终端应用产品的当前用户的用户数据进行预测，预测结果与真实值之间的误差较大，不能对产品的用户数据进行精确的预测，从而无法进一步为产品的相关的决策提供良好的数据参考依据。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例提出了一种用户数据的预测方法，包括：

依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据；

计算各层次间用户数据的转移概率；

利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵；

将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

可选地，该方法还包括：

依据用户活动状态信息将历史用户数据分类为现有用户的用户数据和已流失用户的用户数据。

优选地，其中，依据预定分层规则将历史用户数据进行数据分层，包括：

基于预定时间间隔，对分类后的现有用户的用户数据和已流失用户的用户数据进行数据分层。

优选地，包括：

基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度进行分层；

基于预定时间间隔，并结合第二预定层数将已流失用户的历史数据依据其流失时间长度进行分层。

优选地，其中，基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度及活动方式进行分层。

优选地，转移概率包括已流失用户的用户数据向现有用户的用户数据转移的各层次间回流用户的回流概率。

优选地，其中，计算各层次间用户数据的转移概率，包括：

基于预定时间间隔，计算现有用户的用户数据所在多个层次间的现有用户转移概率以及已流失用户的用户数据向现有用户的用户数据转移的各层次间的回流用户回流概率。

优选地，其中，回流用户回流概率符合逆正态分布。

优选地，其中，预定训练模型包括马科夫模型。

本发明的另一实施例提出了一种用户数据的预测装置，包括：

分层模块，用于依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据；

计算模块，用于计算各层次间用户数据的转移概率；

训练模块，用于利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵；

预测计算模块，用于将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

可选地，该装置还包括：

分类模块，用于依据用户活动状态信息将历史用户数据分类为现有用户的用户数据和已流失用户的用户数据。

优选地，其中，分层模块具体用于基于预定时间间隔，对分类后的现有用户的用户数据和已流失用户的用户数据进行数据分层。

优选地，分层模块，包括：

第一分层单元，用于基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度进行分层；

第二分层单元，用于基于预定时间间隔，并结合第二预定层数将已流失用户的历史数据依据其流失时间长度进行分层。

优选地，其中，第一分层单元具体用于基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度及活动方式进行分层。

优选地，其中，计算模块，包括：

计算单元，用于基于预定时间间隔，计算现有用户的用户数据所在多个层次间的现有用户转移概率以及已流失用户的用户数据向现有用户的用户数据转移的各层次间的回流用户回流概率。

优选地，其中，回流用户回流概率符合逆正态分布。

优选地，其中，预定训练模型包括马科夫模型。

本发明的实施例中，提出了一种用户数据的预测方案，依据预定分层规则将历史用户数据进行数据分层，可针对不同层次间用户数据的转移概率进行数据分析及建模，以确定各层次间用户数据的转移矩阵，利用预定训练模型对转移概率进行训练，通过用户在各层次的转移状态训练得到的转移矩阵实现了对用户数据多维度的分析，为预测结果的精确性提供了可靠的保障，同时精确的预测用户数据可为产品的技术调优及市场决策提供良好的数据参考依据。进一步地，通过对历史用户数据中的现有用户的用户数据和已流失用户的用户数据进行数据分层，充分考虑了已流失用户存在的回流情况，依据转移概率及回流概率进行模型训练，避免了已流失用户因回流而导致的预测结果不准确的问题；同时，还可基于用户的活动方式对历史用户数据进行数据分层，为促进被动活跃用户变为主动活跃用户提供了可靠的数据信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中一个实施例的用户数据的预测方法的流程图；

图2为本发明中另一实施例的用户数据的预测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明中一个实施例的用户数据的预测方法的流程图。

本发明的实施例中，各步骤所执行的内容概述如下：步骤S110：依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据；步骤S120：计算各层次间用户数据的转移概率；步骤S130：利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵；步骤S140：将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

本发明的实施例中，提出了一种用户数据的预测方法，依据预定分层规则将历史用户数据进行数据分层，可针对不同层次间用户数据的转移概率进行数据分析及建模，以确定各层次间用户数据的转移矩阵，利用预定训练模型对转移概率进行训练，通过用户在各层次的转移状态训练得到的转移矩阵实现了对用户数据多维度的分析，为预测结果的精确性提供了可靠的保障，同时精确的预测用户数据可为产品的技术调优及市场决策提供良好的数据参考依据。进一步地，通过对历史用户数据中的现有用户的用户数据和已流失用户的用户数据进行数据分层，充分考虑了已流失用户存在的回流情况，依据转移概率及回流概率进行模型训练，避免了已流失用户因回流而导致的预测结果不准确的问题；同时，还可基于用户的活动方式对历史用户数据进行数据分层，为促进被动活跃用户变为主动活跃用户提供了可靠的数据信息。以下针对各个步骤的具体实现做进一步的说明：

步骤S110：依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据。

具体地，依据预定分层规则将与终端应用相应的历史用户数据进行数据分层，以获取到多层次的用户数据。

其中，用户数据包括但不限于终端应用的用户使用数量。

例如，依据预定分层规则，如将用户数据分为11层，将终端应用App1的海量历史用户数据进行数据分层，以获取到11层次的用户数量。

在一优选实施例中，该方法还包括步骤S150(图中未示出)；步骤S150：依据用户活动状态信息将历史用户数据分类为现有用户的用户数据和已流失用户的用户数据。

其中，用户活动状态信息包括但不限于用户使用终端应用的活跃度信息。活跃度信息可通过用户使用终端应用的频率、次数、是否发生信息交互、最近使用时间、终端应用运行时长、终端应用前后台运行时间比例等来确定。

其中，现有的用户数据包括当前仍持续使用终端应用的用户数据，已流失用户的用户数据包括当前已不再使用终端应用的用户数据。

例如，依据使用户终端应用App1的活跃度信息将终端应用App1的海量历史用户数据分类为现有用户的用户数量和已流失用户的用户数量。

其中，在对历史用户数据进行分类后，步骤S110具体包括：基于预定时间间隔，对分类后的现有用户的用户数据和已流失用户的用户数据进行数据分层。

例如，依据使用户终端应用App1的活跃度信息将终端应用App1的海量历史用户数据分类为现有用户的用户数量和已流失用户的用户数量，随后，基于预定时间间隔，如一周，对分类后的现有用户的用户数量和已流失用户的用户数量进行数据分层。

优选地，步骤S110包括步骤S111(图中未示出)和步骤S112(图中未示出)；步骤S111：基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度进行分层；步骤S112：基于预定时间间隔，并结合第二预定层数将已流失用户的历史数据依据其流失时间长度进行分层。

可选地，基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度及活动方式进行分层。

其中，用户的活动方式包括但不限于用户的主动活跃和用户的被动活跃。用户主动活跃的活动方式，如用户主动使用终端应用App1；用户被动活跃的活动方式，如用户并未主动使用终端应用App1，但此时终端应用App1在终端的后台运行。通过终端应用前后台运行时间来确定用户的活动方式；例如，当在预定时间间隔内，终端应用无前台运行时间，且后台运行时间大于预定时长阈值，则确定用户的活动方式为被动活跃。

例如，依据用户使用终端应用App1的活跃度信息将终端应用App1的海量历史用户数据分类为现有用户的用户数量和已流失用户的用户数量，随后，基于预定时间间隔，如一周，并结合第一预定层数，如6层，根据现有用户活跃时间长度可分为用户连续活跃1周，用户连续活跃2周，用户连续活跃3周，用户连续活跃4周和用户连续活跃5周，将现有用户的用户数量分为5层，以及根据现有用户被动活跃的活动方式分为1层，将现有用户的用户数量分为6层；基于预定时间间隔，如一周，并结合第二预定层数，如5层，已流失用户流失时间长度可分为连续流失1周，连续流失2周，连续流失3周，连续流失4周和连续流失5周，将已流失用户的历史用户数量依据其流失时间长度分为5层。

步骤S120：计算各层次间用户数据的转移概率。

具体地，计算分层后各层次间终端应用的历史用户使用数量的转移概率。

例如，依据预定分层规则将终端应用App1的海量历史用户数据进行数据分层，随后，通过统计和数据建模的方法计算各层次间用户数量的转移概率。

其中，回流用户是指连续预定时间长度不使用终端应用的用户重新开始使用该终端应用。

例如，转移概率包括终端应用App1已流失用户的各层次用户数量向终端应用App1现有用户的各层次用户数量转移的各层次间回流用户的回流概率，如终端应用App1已流失一周的用户数量向终端应用App1现有用户被动活跃所在层的用户数量转移的回流概率，终端应用App1已流失一周的用户数量向终端应用App1现有用户的连续活跃一周所在层的用户数量转移的回流概率等。

在一优选实施例中，步骤S120包括步骤S121(图中未示出)；步骤S121：基于预定时间间隔，计算现有用户的用户数据所在多个层次间的现有用户转移概率以及已流失用户的用户数据向现有用户的用户数据转移的各层次间的回流用户回流概率。

其中，回流用户回流概率符合逆正态分布。

例如，依据用户使用终端应用App1的活跃度信息将终端应用App1的海量历史用户数据分类为现有用户的用户数量和已流失用户的用户数量，随后，基于预定时间间隔，如一周，并结合第一预定层数，如6层，将现有用户的用户数量依据其活跃时间长度及用户被动活跃的活动方式分为6层；基于预定时间间隔为一周，并结合第二预定层数，如5层，将已流失用户的历史用户数量依据其流失时间长度分为5层，随后，基于预定时间间隔一周，计算终端应用App1现有用户的用户数量所在6个层次间的现有用户向11层的各层转移的现有用户转移概率，以及终端应用App1已流失用户的5个层次用户数量向终端应用App1现有用户的6层次转移的回流用户回流概率以及终端应用App1各层回流用户的回流概率，如终端应用App1已流失的各层用户向终端应用App1的各层现有用户的转移概率，随后利用马科夫模型对用户数量的转移概率和回流概率进行训练，以确定各层次间用户数量的转移矩阵，随后，将当前用户数量通过转移矩阵进行预测计算，以确定预测预定时间间隔为一周的终端应用App2的用户数量。

步骤S130：利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵。

其中，预定训练模型包括但不限于马科夫模型。

例如，依据预定分层规则将终端应用App1的海量历史用户数据进行数据分层，随后，通过统计和数据建模的方法计算各层次间用户数量的转移概率，随后，利用马科夫模型对各层次间用户数量的转移概率进行训练，以确定各层次间用户数量的转移矩阵。接上例，利用马科夫模型对用户数量的转移概率和回流概率进行训练，以确定各层次间用户数量的转移矩阵。

步骤S140：将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

具体地，将终端应用的当前用户数据通过转移矩阵进行预测计算，以确定预定时间间隔后的预测终端应用的用户数据。

例如，依据预定分层规则，如依据用户使用终端应用App1的活跃度信息将终端应用App1的海量历史用户数据分类为现有用户的用户数量和已流失用户的用户数量，随后，基于预定时间间隔，如一周，并结合第一预定层数，将现有用户的用户数量分为5层，以及根据现有用户被动活跃的活动方式分为1层，将现有用户的用户数量分为6层；基于预定时间间隔，如一周，并结合第二预定层数，如5层，将已流失用户的历史用户数量依据其流失时间长度分为5层，随后，通过统计和数据建模的方法计算各层次间用户数量的转移概率，随后，利用马科夫模型对各层次间用户数量的转移概率进行训练，可确定每层用户数据转移到各层的概率，以确定各层次间用户数量的转移矩阵，随后，将当前用户数量通过转移矩阵进行预测计算，以预测出预定时间间隔后，如一周后终端应用App1的用户使用数量。

本发明的实施例中，各模块所执行的内容概述如下：分层模块210依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据；计算模块220计算各层次间用户数据的转移概率；训练模块230利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵；预测计算模块240将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

本发明的实施例中，提出了一种用户数据的预测装置，依据预定分层规则将历史用户数据进行数据分层，可针对不同层次间用户数据的转移概率进行数据分析及建模，以确定各层次间用户数据的转移矩阵，利用预定训练模型对转移概率进行训练，通过用户在各层次的转移状态训练得到的转移矩阵实现了对用户数据多维度的分析，为预测结果的精确性提供了可靠的保障，同时精确的预测用户数据可为产品的技术调优及市场决策提供良好的数据参考依据。进一步地，通过对历史用户数据中的现有用户的用户数据和已流失用户的用户数据进行数据分层，充分考虑了已流失用户存在的回流情况，依据转移概率及回流概率进行模型训练，避免了已流失用户因回流而导致的预测结果不准确的问题；同时，还可基于用户的活动方式对历史用户数据进行数据分层，为促进被动活跃用户变为主动活跃用户提供了可靠的数据信息。以下针对各个模块的具体实现做进一步的说明：

分层模块210依据预定分层规则将历史用户数据进行数据分层，以获取到多层次用户数据。

其中，用户数据包括但不限于终端应用的用户使用数量。

在一优选实施例中，该装置还包括分类模块(图中未示出)；分类模块依据用户活动状态信息将历史用户数据分类为现有用户的用户数据和已流失用户的用户数据。

其中，在对历史用户数据进行分类后，分层模块210具体包括：基于预定时间间隔，对分类后的现有用户的用户数据和已流失用户的用户数据进行数据分层。

优选地，分层模块210包括第一分层单元(图中未示出)和第二分层单元(图中未示出)；第一分层单元基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度进行分层；第二分层单元基于预定时间间隔，并结合第二预定层数将已流失用户的历史数据依据其流失时间长度进行分层。

计算模块220计算各层次间用户数据的转移概率。

在一优选实施例中，计算模块220基于预定时间间隔，计算现有用户的用户数据所在多个层次间的现有用户转移概率以及已流失用户的用户数据向现有用户的用户数据转移的各层次间的回流用户回流概率。

其中，回流用户回流概率符合逆正态分布。

训练模块230利用预定训练模型对转移概率进行训练，以确定各层次间用户数据的转移矩阵。

其中，预定训练模型包括但不限于马科夫模型。

预测计算模块240将当前用户数据通过转移矩阵进行预测计算，以确定预测用户数据。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用户数据的预测方法，包括：

计算各层次间用户数据的转移概率；

利用预定训练模型对所述转移概率进行训练，以确定各层次间用户数据的转移矩阵；

将当前用户数据通过所述转移矩阵进行预测计算，以确定预测用户数据。

2.根据权利要求1所述的方法，还包括：

依据用户活动状态信息将所述历史用户数据分类为现有用户的用户数据和已流失用户的用户数据。

3.根据权利要求2所述的方法，其中，依据预定分层规则将历史用户数据进行数据分层，包括：

4.根据权利要求3所述的方法，包括：

5.根据权利要求4所述的方法，其中，基于预定时间间隔，并结合第一预定层数将现有用户的用户数据依据其活跃时间长度及活动方式进行分层。

6.根据权利要求2-5任一项所述的方法，所述转移概率包括已流失用户的用户数据向现有用户的用户数据转移的各层次间回流用户的回流概率。

7.根据权利要求6所述的方法，其中，计算各层次间用户数据的转移概率，包括：

8.根据权利要求7所述的方法，其中，所述回流用户回流概率符合逆正态分布。

9.根据权利要求1所述的方法，其中，所述预定训练模型包括马科夫模型。

10.一种用户数据的预测装置，包括：

计算模块，用于计算各层次间用户数据的转移概率；

训练模块，用于利用预定训练模型对所述转移概率进行训练，以确定各层次间用户数据的转移矩阵；

预测计算模块，用于将当前用户数据通过所述转移矩阵进行预测计算，以确定预测用户数据。