CN107920260A

CN107920260A - 数字电视用户行为预测方法及装置

Info

Publication number: CN107920260A
Application number: CN201610883971.4A
Authority: CN
Inventors: 万倩; 赵明; 朱佩江; 李培琳; 牛妍华
Original assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television
Current assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Academy of Broadcasting Science of SAPPRFT
Priority date: 2016-10-10
Filing date: 2016-10-10
Publication date: 2018-04-17

Abstract

本发明实施例提供一种数字电视用户行为预测方法及装置。该方法包括：获取用户收视的上下文信息，所述上下文信息包括：基本类型、节目属性、收视时段；根据所述上下文信息，确定用户关机模型；根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测。本发明实施例通过获取用户收视的上下文信息，根据上下文信息，确定用户关机模型，根据用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，预测用户关闭电视机的时刻，根据用户关闭电视机的时刻，确定出机顶盒回传的用户收视行为数据中的无效数据，提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性。

Description

数字电视用户行为预测方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种数字电视用户行为预测方法及装置。

背景技术

随着有线电视网络双向改造的加速，以及双向数字电视机顶盒的普及，海量家庭用户操作机顶盒的行为数据能够被收集，并通过采集***回传至后台数据存储服务器，实现海量用户收视行为数据的采集。同时，得益于大数据技术的发展，一方面将收视率调查和分析的样本空间扩大为全体用户，能得到全面精准的分析结果；另一方面还可以针对特定人群进行收视特征分析，帮助运营商实时调整运营决策，为用户提供个性化的收视服务，从而提高用户体验并增加营业收入。

然而，双向数字电视机顶盒只要在开机的状态下，就会实时监测并回传用户频道跳转、交互业务的使用以及页面停留等行为。而在实际生活中，大部分用户习惯性的只关闭电视机，而机顶盒仍处于开机状态，此时，机顶盒会继续回传用户收视行为数据，显然这部分数据是无效的。这部分无效数据在很大程度上会影响广电有线运营商进行收视率调查和用户收视行为分析的准确性。

发明内容

本发明实施例提供一种数字电视用户行为预测方法及装置，以提高收视率调查和用户收视行为分析的准确性。

本发明实施例的一个方面是提供一种数字电视用户行为预测方法，包括：

获取用户收视的上下文信息，所述上下文信息包括：基本类型、节目属性、收视时段；

根据所述上下文信息，确定用户关机模型；

根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测。

本发明实施例的另一个方面是提供一种数字电视用户行为预测装置，包括：

获取模块，用于获取用户收视的上下文信息，所述上下文信息包括：基本类型、节目属性、收视时段；

确定模块，用于根据所述上下文信息，确定用户关机模型；

预测模块，用于根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测。

本发明实施例提供的数字电视用户行为预测方法及装置，通过获取用户收视的上下文信息，根据上下文信息，确定用户关机模型，根据用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，预测用户关闭电视机的时刻，根据用户关闭电视机的时刻，确定出机顶盒回传的用户收视行为数据中的无效数据，提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性。

附图说明

图1为本发明实施例提供的数字电视用户行为预测方法流程图；

图1A为本发明实施例提供的关机行为预测流程图；

图2为本发明实施例提供的关机时长分布图；

图3为本发明实施例提供的关机时长对数分布图；

图4A为本发明实施例提供的CCTV1频道关机时长分布的累计分布图；

图4B为本发明实施例提供的CCTV1频道关机时长分布的对数分布图；

图5A为本发明实施例提供的湖南卫视关机时长分布的累计分布图；

图5B为本发明实施例提供的湖南卫视关机时长分布的对数分布图；

图6A为本发明实施例提供的北京卫视关机时长分布的累计分布图；

图6B为本发明实施例提供的北京卫视关机时长分布的对数分布图；

图7A为本发明实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的累计分布图；

图7B为本发明实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的对数分布图；

图8A为本发明实施例提供的《芈月传》关机时长分布的累计分布图；

图8B本发明实施例提供的《芈月传》关机时长分布的对数分布图；

图9A为本发明实施例提供的《开心乐翻天》关机时长分布的累计分布图；

图9B为本发明实施例提供的《开心乐翻天》关机时长分布的对数分布图；

图10为现有技术中的用一棵传统的回归决策树进行训练的结果的示意图；

图11为本发明实施例提供的回归决策树模型的示意图；

图12为本发明实施例提供的迭代决策树方法进行关机模型训练的实验结果的示意图；

图13为本发明实施例提供的数字电视用户行为预测装置的结构图；

图14为本发明另一实施例提供的数字电视用户行为预测装置的结构图。

具体实施方式

迭代决策树(Gradient Boosting Decision Tree，简称GBDT)又叫多重累计回归树(Multiple Additive Regression Tree，简称MART)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

Gradient Boost其实是一个框架，里面可以套入很多不同的算法。Boost是"提升"的意思，一般Boosting算法都是一个迭代的过程，每一次新的训练都是为了改进上一次的结果。

原始的Boost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步结束后，增加分错的点的权重，减少分对的点的权重，这样使得某些点如果老是被分错，那么就会被“严重关注”，也就被赋上一个很高的权重。然后等进行了N次迭代(由用户指定)，将会得到N个简单的分类器(basic learner)，然后我们将它们组合起来(比如说可以对它们进行加权、或者让它们进行投票等)，得到一个最终的模型。

而Gradient Boost与传统的Boost的区别是，每一次的计算是为了减少上一次的残差(residual)，而为了消除残差，可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说，在Gradient Boost中，每个新的模型的建立是为了使得之前模型的残差往梯度方向减少，与传统Boost对正确、错误的样本进行加权有着很大的区别。

在分类问题中，有一个很重要的内容叫做Multi-Class Logistic，也就是多分类的Logistic问题，它适用于那些类别数>2的问题，并且在分类结果中，样本x不是一定只属于某一个类可以得到样本x分别属于多个类的概率(也可以说样本x的估计y符合某一个几何分布)。这里就用一个结论：如果一个分类问题符合几何分布，那么就可以用Logistic变换来进行之后的运算。

假设对于一个样本x，它可能属于K个分类，其估计值分别为F1(x)…FK(x)，Logistic变换如下，logistic变换是一个平滑且将数据规范化(使得向量的长度为1)的过程，结果为属于类别k的概率p_k(x)，如公式(1)所示：

对于Logistic变换后的结果，损失函数如公式(2)

其中，yk为输入的样本数据的估计值，当一个样本x属于类别k时，yk＝1，否则yk＝0。

将Logistic变换的式子带入损失函数，并且对其求导，可以得到损失函数的梯度，如公式(3)所示：

假设输入数据x可能属于5个分类(分别为1,2,3,4,5)，训练数据中，x属于类别3，则y＝(0,0,1,0,0)，假设模型估计得到的F(x)＝(0,0.3,0.6,0,0)，则经过Logistic变换后的数据p(x)＝(0.16,0.21,0.29,0.16,0.16)，y-p得到梯度g：(-0.16,-0.21,0.71,-0.16,-0.16)。观察这里可以得到一个比较有意思的结论：

假设gk为样本当某一维(某一个分类)上的梯度:

gk>0时，越大表示其在这一维上的概率p(x)越应该提高，比如说上面的第三维的概率为0.29，就应该提高，属于应该往“正确的方向”前进；越小表示这个估计越“准确”。

gk<0时，越小，负得越多表示在这一维上的概率应该降低，比如说第二维0.21就应该得到降低。属于应该朝着“错误的反方向”前进；越大，负得越少表示这个估计越“不错误”。

总的来说，对于一个样本，最理想的梯度是越接近0的梯度。所以，我们要能够让函数的估计值能够使得梯度往反方向移动(>0的维度上，往负方向移动，<0的维度上，往正方向移动)最终使得梯度尽量＝0，并且该算法在会严重关注那些梯度比较大的样本，跟Boost的意思类似。

得到梯度之后，就是如何让梯度减少了。这里是用的一个迭代+决策树的方法，当初始化的时候，随便给出一个估计函数F(x)(可以让F(x)是一个随机的值，也可以让F(x)＝0)，然后之后每迭代一步就根据当前每一个样本的梯度的情况，建立一棵决策树。就让函数往梯度的反方向前进，最终使得迭代N步后，梯度越小。

这里建立的决策树和普通的决策树不太一样，首先，这个决策树是一个叶子节点数J固定的，当生成了J个节点后，就不再生成新的节点了。

图1为本发明实施例提供的数字电视用户行为预测方法流程图。如图1所示，该方法具体步骤如下：

步骤S101、获取用户收视的上下文信息，所述上下文信息包括：基本类型、节目属性、收视时段。

本实施例涉及的用户关机行为与上下文信息有关，上下文信息包括：基本类型、节目属性、收视时段；其中，基本类型包括：地域和业务类型，业务类型具体例如页面浏览、点播、直播、时移以及回看；节目属性包括直播频道、节目类型例如电影、电视剧、综艺、动漫等、节目热度、节目时长等；收视时段包括播出时间如星期几、直播收视时段等。具体的，地域、业务类型、直播频道、节目类型、节目热度、节目时长、播出时间、直播收视时段，这八个属性可以作为行为特征来判断。

步骤S102、根据所述上下文信息，确定用户关机模型。

在本实施例中，用户关机模型建立的基础是：机顶盒能够捕捉到部分电视机开关机时高清晰度多媒体接口(High Definition Multimedia Interface，简称HDMI)管脚的电平变化，回传电视机开关机数据。

数字电视用户关机行为预测的作用在于，在用户离开或者关闭电视机，而机顶盒仍处于开机状态的情况下，从回传的用户行为数据中区分出这部分无效数据，并估算出用户最有可能的关机时刻。用户关机行为具体定义为：当用户操作机顶盒的行为数据时间间隔过大，估算在此期间用户离开或关闭电视机的可能性，以及最有可能的关机时刻，从而保证用户收视行为统计的有效性。

下面对用户关机规律进行分析，例如，某省网通过双向数字电视机顶盒采集到百万用户在2016年3月期间的所有行为数据，业务类型涉及直播、点播、时移、回看以及资讯等。其中包含了二十多万用户的三百多万条电视机关机数据。如果定义关机行为与用户关机前的最后一条行为数据之间的时间间隔作为关机时长，那么可以得到三百多万个关机时长数据，图2为本发明实施例提供的关机时长分布图，横坐标代表关机时长，纵坐标代表关机时长位于对应时间区间内的关机次数，可以看出大部分关机时长小于100分钟。如果对图2中的横纵坐标取对数，得到的关机时长对数分布图如图3所示，近似一条直线，表明用户关机时长符合Zipf分布。

另外，通过实验，还可以得出直播频道分布、直播节目分布，下面分别介绍：

(1)直播频道分布

用户关机前的行为超过90％是直播，其他行为如点播、时移、回看以及页面浏览等不足10％，为了更好的了解用户关机时长的规律，本发明统计了用户关机时长在各直播频道上的分布情况，本实施例分别给出了CCTV1、湖南卫视、北京卫视的关机时长分布图，可以看出关机时长在各直播频道上同样表现为Zipf分布的特性。图4A为本发明实施例提供的CCTV1频道关机时长分布的累计分布图，图4B为本发明实施例提供的CCTV1频道关机时长分布的对数分布图。图5A为本发明实施例提供的湖南卫视关机时长分布的累计分布图，图5B为本发明实施例提供的湖南卫视关机时长分布的对数分布图。图6A为本发明实施例提供的北京卫视关机时长分布的累计分布图，图6B为本发明实施例提供的北京卫视关机时长分布的对数分布图。

(2)直播节目分布

用户关机时长不仅在直播频道上呈现出Zipf分布的特性，而且在直播节目也具有类似的性质,可选的，本实施例以电影例如《饥饿游戏-嘲笑鸟(上)》、电视剧例如《芈月传》、综艺节目《开心乐翻天》为例，介绍用户在观看这些节目后关机的时长分布，图7A为本发明实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的累计分布图，图7B为本发明实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的对数分布图。图8A为本发明实施例提供的《芈月传》关机时长分布的累计分布图，图8B本发明实施例提供的《芈月传》关机时长分布的对数分布图。图9A为本发明实施例提供的《开心乐翻天》关机时长分布的累计分布图，图9B为本发明实施例提供的《开心乐翻天》关机时长分布的对数分布图。可见，对比频道关机时长与节目关机时长，可以明显看出，节目关机时长要远小于频道关机时长，原因在于节目时长是有限的，用户进入某频道的停留时间显然会比用户停留在某一节目上的时间要长。

另外，用户关机行为很大程度上取决于用户收视状态的上下文信息，比如：业务类型，用户在浏览页面或者观看点播节目后关机可能性要比观看直播频道小，特别是长时间停留在某一频道时；此外，还有收视时段，收视高峰时段关机的概率显然要比冷门收视时段小。因此，本发明将用户收视的上下文信息归为三类：基本类型、节目属性、收视时段，其中基本类型包括地域和业务类型(页面浏览、点播、直播、时移以及回看)；节目属性包括直播频道、节目类型(电影、电视剧、综艺、动漫等)、节目热度、节目时长等；收视时段包括星期几、直播收视六时段等。具体分类如表1所示：

表1

为了便于表述，地域用R表示，取值为离散整数(T>＝1)：每一个数值唯一对应某个地市；业务类型用T表示，取值为离散整数(T＝{1-5})：1表示页面浏览、2表示点播、3表示直播、4表示时移、5表示回看；直播频道用C表示，取值为离散整数(C>＝1)：每一个数值唯一对应某个频道，如1表示CCTV1，2表示CCTV2等等；节目类型用P表示，取值为离散整数(P＝{1-4})：1表示电影、2表示电视剧、3表示综艺、4表示动漫，这里仅对节目进行了一级分类，实际应用中可以进一步细分，如电影可以进一步细分为喜剧、动作、爱情等；节目热度用H表示，取值为离散整数(H>＝1)：取值越大，即观看人数越多，说明该节目越热门，一般情况下，用户对热门节目更感兴趣，因此在该节目播放时长内关机的可能性较小；节目时长用L表示，取值为连续整数(L>0)；星期几用W表示，取值为离散整数(W＝{1-7})：1表示星期一、2表示星期二、...、7表示星期日；直播收视六时段用I表示，取值为离散整数(1-6)：1表示0点至6点、2表示6点至9点、3表示9点至12点、4表示12点至15点、5表示15点至19点、6表示19点至24点。因此，给出的用户关机模型如公式(4)所示：

t＝f(R,T,C,P,H,L,W,I) (4)

其中f为关机模型函数，本发明使用迭代决策树算法(Gradient BoostingDecision Tree,简称GBDT)训练该模型，并用该模型预测无法采集到电视机关机数据的用户的关机行为。

步骤S103、根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测。

如图1A所示，关机行为预测流程包括：清洗和整理生成输入数据、模型训练、预测结果3个阶段，其中，用户行为数据、用户属性和媒资数据输入到Spark分布式计算平台，形成输入数据，输入数据具体包括地域、业务类型、直播频道、节目类型、节目热度、节目时长、播出时间、直播收视时段。根据测试和训练数据比例参数划分输入数据，并将划分后的训练数据输入到基于迭代决策树的训练模型，在训练过程中，可根据算法参数进行训练，算法参数包括纯度计算和树深度选择，得到最终的训练模型。根据训练模型对关机时长进行回归预测，得到反馈结果。

决策树包括分类决策树和回归决策树，其中分类决策树的代表算法是C4.5，主要用于多分类标签值的预测，如用户的性别、垃圾邮件分类、股市的涨跌等；而回归决策树可以用于预测实数值，如用户的年龄、身高等，代表性算法是GBDT，它在被提出之初就和SVM被认为是泛化能力最强的算法。

作为对比，先说分类决策树，C4.5在每次分枝时，是穷举每一个特征的所有分类阈值，找到使得按照特征值<＝阈值，和特征值>阈值分成的两个分枝的熵最大的特征和阈值，按照该标准分枝得到两个新节点，用同样方法继续分枝直到所有样本都被分入唯一的叶子节点，或达到预设的终止条件，若最终叶子节点中的类别不唯一，则以多数样本的类别作为该叶子节点的类别。

回归决策树的工作流程类似，不过在每个节点(不一定是叶子节点)都会得到一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个特征的所有阈值找最好的分割点，但衡量最好的标准不再是最大熵，而是最小化均方差，即这很好理解，被预测出错的人数越多，错的越离谱，均方差就越大，通过最小化均方差能够找到最靠谱的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)，若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

迭代决策树GBDT(Gradient BoostDecision Tree)作为回归决策树的代表性算法，与传统的回归决策树的不同之处在于：GBDT通过梯度迭代多棵树来共同决策，每一个棵树的输入是之前所有树的结论和的残差，这个残差就是之前所有树的预测结果之和与实际结果之差。以年龄预测为例，假如训练集只有4个人，甲，乙，丙，丁，他们的年龄分别是8，22，26，40。其中甲、乙是在读学生；丙、丁是公司员工。如果用一棵传统的回归决策树来训练，得到的结果如图10所示。

GBDT在相同的样本空间上训练出的回归决策树模型如图11所示。从图11可以看出，GBDT的第一棵树和图10的第一层分枝一样，由于甲乙年龄相近、丙丁年龄相近，他们分别被分到树的左右节点，每节点的平均年龄作为第一棵树的预测值。此时得到的残差分别为甲＝-7，乙＝7，丙＝-7，丁＝7，然后，用残差替代第一棵树的输入样本，可以得到第二棵树，用新的特征进行训练得到新的残差分别为甲＝0，乙＝0，丙＝0，丁＝0，显然，经过第二棵树的迭代学习后，残差已减为0(真实情况下难以实现)，这时我们可以利用训练好的模型进行预测。即：

甲：8岁的学生，喜欢玩电脑游戏，预测年龄是15+(-7)＝8

乙：22岁的学生，喜欢玩***，预测年龄是15+7＝22

丙：26岁的员工，喜欢玩电脑游戏，预测年龄是33+(-7)＝26

丁：40岁的员工，喜欢玩***，预测年龄是33+7＝40

本发明实施例通过获取用户收视的上下文信息，根据上下文信息，确定用户关机模型，根据用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，预测用户关闭电视机的时刻，根据用户关闭电视机的时刻，确定出机顶盒回传的用户收视行为数据中的无效数据，提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性。

另外，为了说明上述实施例的方法，本发明实施例从某省网获得2016年3月份的所有双向数字电视机顶盒用户的行为数据，其中包括用户浏览页面、直播、点播、时移以及回看等业务。数据总量超过300G，月活跃用户数达百万以上，近30万机顶盒能够上传电视机关机行为，共计300多万条关机记录。首先，利用Spark分布式处理技术对海量的行为数据进行预处理，并从中抽取出每条关机数据对应的表1所示特征，本发明只取了地域、业务类型、进入业务的收视时段、关机时刻的收视时段、星期几这几个特征，并将这些行为特征完全相同的关机时长求平均得到具有此类特征的关机数据的关机时长，同时把特征完全相同的关机数据条数作为新增特征。以此得到近5000个样本。最后，将样本空间划分为训练集和测试集，其中训练集包含80％的样本，采用上节所述的迭代决策树方法(GBDT)进行关机模型训练，然后用训练好的模型预测测试集中样本的关机时长。实验结果如图12所示。

图中灰色实线代表测试样本关机时长的实际值，便于观察，绘图过程中按关机时长从小到大进行排序，黑色实线代表关机模型对应的预测结果，可以看出预测值围绕实际值波动，但整体误差较小，绝对误差在20分钟之内，说明预测较为准确。

本实施例基于有线数字电视用户在结束观看时，习惯于只关闭电视机而忽略了关闭机顶盒的普遍现象，本发明指出了在此期间机顶盒回传的用户行为数据在很大程度上会影响广电运营商对用户收视行为以及节目和频道等收视率指标的统计分析结果的准确性。因此，本发明提出了电视机关机模型，并采用迭代决策树算法进行训练，实现了基于迭代决策树的数字电视用户关机行为预测，弥补了当前难以采集用户关机数据的空缺，该模型在某省网提供的真实数据上得到了较好的预测结果，从而保证收视率调查和用户收视行为分析的准确性。

图13为本发明实施例提供的数字电视用户行为预测装置的结构图。本发明实施例提供的数字电视用户行为预测装置可以执行数字电视用户行为预测方法实施例提供的处理流程，如图13所示，数字电视用户行为预测装置包括获取模块131、确定模块132、预测模块133；获取模块131用于获取用户收视的上下文信息，所述上下文信息包括：基本类型、节目属性、收视时段；确定模块132用于根据所述上下文信息，确定用户关机模型；预测模块133用于根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测。

图14为本发明另一实施例提供的数字电视用户行为预测装置的结构图。在图13的基础上，数字电视用户行为预测装置还包括：训练模块134，用于采用迭代决策树算法，训练所述用户关机模型。

获取模块131还用于获取用户操作机顶盒的行为数据时间间隔；确定模块132还用于：若所述时间间隔大于阈值，则根据所述用户关机模型，确定所述用户关闭电视机的时刻。

另外，数字电视用户行为预测装置还包括分类模块135，分类模块135用于将所述上下文信息分为样本数据和测试数据；确定模块132具体用于根据所述样本数据，确定用户关机模型；预测模块133具体用于根据所述用户关机模型，对所述测试数据的用户的关机行为进行预测。

此外，述基本类型包括地域和业务类型；所述节目属性包括直播频道、节目类型、节目热度、节目时长；所述收视时段包括播出时间、直播收视时段。

本发明实施例提供的数字电视用户行为预测装置可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本发明实施例基于有线数字电视用户在结束观看时，习惯于只关闭电视机而忽略了关闭机顶盒的普遍现象，本发明指出了在此期间机顶盒回传的用户行为数据在很大程度上会影响广电运营商对用户收视行为以及节目和频道等收视率指标的统计分析结果的准确性。因此，本发明提出了电视机关机模型，并采用迭代决策树算法进行训练，实现了基于迭代决策树的数字电视用户关机行为预测，弥补了当前难以采集用户关机数据的空缺，该模型在某省网提供的真实数据上得到了较好的预测结果，从而保证收视率调查和用户收视行为分析的准确性。

综上所述，本发明实施例通过获取用户收视的上下文信息，根据上下文信息，确定用户关机模型，根据用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，预测用户关闭电视机的时刻，根据用户关闭电视机的时刻，确定出机顶盒回传的用户收视行为数据中的无效数据，提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性；基于有线数字电视用户在结束观看时，习惯于只关闭电视机而忽略了关闭机顶盒的普遍现象，本发明指出了在此期间机顶盒回传的用户行为数据在很大程度上会影响广电运营商对用户收视行为以及节目和频道等收视率指标的统计分析结果的准确性。因此，本发明提出了电视机关机模型，并采用迭代决策树算法进行训练，实现了基于迭代决策树的数字电视用户关机行为预测，弥补了当前难以采集用户关机数据的空缺，该模型在某省网提供的真实数据上得到了较好的预测结果，从而保证收视率调查和用户收视行为分析的准确性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数字电视用户行为预测方法，其特征在于，包括：

根据所述上下文信息，确定用户关机模型；

2.根据权利要求1所述的方法，其特征在于，所述根据所述上下文信息，确定用户关机模型之后，还包括：

采用迭代决策树算法，训练所述用户关机模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，包括：

获取用户操作机顶盒的行为数据时间间隔；

若所述时间间隔大于阈值，则根据所述用户关机模型，确定所述用户关闭电视机的时刻。

4.根据权利要求1所述的方法，其特征在于，所述获取用户收视的上下文信息之后，还包括：

将所述上下文信息分为样本数据和测试数据；

所述根据所述上下文信息，确定用户关机模型，包括：

根据所述样本数据，确定用户关机模型；

所述根据所述用户关机模型，对无法采集到电视机关机数据的用户的关机行为进行预测，包括：

根据所述用户关机模型，对所述测试数据的用户的关机行为进行预测。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基本类型包括地域和业务类型；

所述节目属性包括直播频道、节目类型、节目热度、节目时长；

所述收视时段包括播出时间、直播收视时段。

6.一种数字电视用户行为预测装置，其特征在于，包括：

确定模块，用于根据所述上下文信息，确定用户关机模型；

7.根据权利要求6所述的数字电视用户行为预测装置，其特征在于，还包括：

训练模块，用于采用迭代决策树算法，训练所述用户关机模型。

8.根据权利要求7所述的数字电视用户行为预测装置，其特征在于，所述获取模块还用于获取用户操作机顶盒的行为数据时间间隔；

所述确定模块还用于：若所述时间间隔大于阈值，则根据所述用户关机模型，确定所述用户关闭电视机的时刻。

9.根据权利要求6所述的数字电视用户行为预测装置，其特征在于，还包括：

分类模块，用于将所述上下文信息分为样本数据和测试数据；

所述确定模块具体用于根据所述样本数据，确定用户关机模型；

所述预测模块具体用于根据所述用户关机模型，对所述测试数据的用户的关机行为进行预测。

10.根据权利要求6-9任一项所述的数字电视用户行为预测装置，其特征在于，所述基本类型包括地域和业务类型；

所述收视时段包括播出时间、直播收视时段。