CN105320702B - 一种用户行为数据的分析方法、装置及智能电视 - Google Patents
一种用户行为数据的分析方法、装置及智能电视 Download PDFInfo
- Publication number
- CN105320702B CN105320702B CN201410380588.8A CN201410380588A CN105320702B CN 105320702 B CN105320702 B CN 105320702B CN 201410380588 A CN201410380588 A CN 201410380588A CN 105320702 B CN105320702 B CN 105320702B
- Authority
- CN
- China
- Prior art keywords
- behavior data
- user
- average value
- distance
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000003542 behavioural effect Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 10
- 238000013500 data storage Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于数据处理技术领域,提供了一种用户行为数据的分析方法、装置及智能电视,所述方法包括:先建立用户行为数据样本,再对建立的用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群。本发明,通过对用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群。由于相似用户群中的用户一般具有相同的偏好,因此,可以将与当前用户相似的用户曾经看过的视频,曾经浏览过的网站或者曾经购买过的物品推荐给当前用户,更好的为用户提供个性化的服务,提升用户的使用体验。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种用户行为数据的分析方法、装置及智能电视。
背景技术
目前,智能电视在市场中的份额已经逐年上升,用户观看和使用智能电视趋于个性化和多元化,基于智能电视的应用和工具也是百花齐放。
然而,现有的智能电视的应用和工具却不能准确、及时、高效地对用户的行为数据进行分析,以了解用户的使用行为,进而得到用户群中的用户之间的相似度。
发明内容
本发明实施例提供了一种用户行为数据的分析方法、装置及智能电视,旨在解决现有技术提供的智能电视,不能根据用户的行为数据得到用户群中的用户之间的相似度的问题。
一方面,提供一种用户行为数据的分析方法,所述方法包括:
步骤A、建立用户行为数据样本;
步骤B、从所述用户行为数据样本中选取k个用户的行为数据,将所述k个用户的行为数据分别作为k个簇的各自的中心;
步骤C、分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果;
步骤D、根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心;
步骤E、分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回步骤D,直至聚类结果不再发生变化或者步骤D执行的次数达到预设的次数。
进一步地,所述步骤B包括:
计算所述用户行为数据样本中的用户的行为数据之间的距离;
计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值,所述距离向量平均值是第k个点的距离向量平均值;
计算所述距离向量平均值的平均值,得到距离平均值;
根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值;
如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
进一步地,计算用户的行为数据与k个簇的各自的中心的相异度,并将用户的行为数据划归至相异度最低的簇包括:
计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离;
将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
进一步地,在所述步骤E之后,还包括:
扫描聚类结果中的一个指定簇中的所有用户的行为数据;
根据所述行为数据,生成频繁1项集至频繁N项集,并计算频繁项集中的每个项集的支持度,其中,频繁N项集中只有一个项集;
根据频繁N项集中的每个项集的支持度以及频繁N-1项集至频繁1项集中的每个项集的支持度,计算得到用户的行为数据之间的关联规则。
进一步地,所述如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据具体为:
如果通过公式计算得到的δ值满足预设的条件,则将对应的第k点的距离向量平均值作为所要选取的第k个用户的行为数据;
其中,为第k个点的距离向量平均值,为距离平均值,λ为修正因子,δ为距离向量平均值与距离平均值之间的偏差值。
另一方面,提供一种用户行为数据的分析装置,所述装置包括:
行为数据样本建立单元,用于建立用户行为数据样本;
第一簇中心确定单元,用于从所述用户行为数据样本中选取k个用户的行为数据,将所述k个用户的行为数据分别作为k个簇的各自的中心;
第一聚类结果生成单元,用于分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果;
第二簇中心确定单元,用于根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心;
第二聚类结果生成单元,用于分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回调用第二簇中心确定单元,直至聚类结果不再发生变化或者步骤D执行的次数达到预设的次数。
进一步地,所述第一簇中心确定单元包括:
距离计算模块,用于计算所述用户行为数据样本中的用户的行为数据之间的距离;
距离向量平均值计算模块,用于计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值,所述距离向量平均值是第k个点的距离向量平均值;
距离平均值计算模块,用于计算所述距离向量平均值的平均值,得到距离平均值;
偏差值计算模块,用于根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值;
簇中心确定模块,用于如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
进一步地,所述第一聚类结果生成单元和
所述第二聚类结果生成单元均包括:
欧几里德距离计算模块,用于计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离;
用户分类模块,用于将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
进一步地,所述装置还包括:
行为数据扫描单元,用于扫描聚类结果中的一个指定簇中的所有用户的行为数据;
频繁项集及支持度生成单元,用于根据所述行为数据,生成频繁1项集至频繁N项集,并计算频繁项集中的每个项集的支持度,其中,频繁N项集中只有一个项集;
关联规则生成单元,用于根据频繁N项集中的每个项集的支持度以及频繁N-1项集至频繁1项集中的每个项集的支持度,计算得到用户的行为数据之间的关联规则。
再一方面,提供一种智能电视,所述智能电视包括如上所述的用户行为数据的分析装置。
在本发明实施例,通过对用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群。由于相似用户群中的用户一般具有相同的偏好,因此,可以将与当前用户相似的用户曾经看过的视频,曾经浏览过的网站或者曾经购买过的物品推荐给当前用户,更好的为用户提供个性化的服务,提升用户的使用体验。
附图说明
图1是本发明实施例一提供的用户行为数据的分析方法的实现流程图;
图2是本发明实施例一提供的大数据存储平台的结构示意图;
图3是本发明实施例一提供的用户行为数据的聚类过程示意图;
图4是本发明实施例二提供的用户行为数据的分析方法的实现流程图;
图5是本发明实施例三提供的用户行为数据的分析装置的具体结构框图;
图6是本发明实施例四提供的用户行为数据的分析装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,先建立用户行为数据样本,再对建立的用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的用户行为数据的分析方法的实现流程。在整个流程中,智能电视先建立用户行为数据样本,再对建立的用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成多个相似用户群,详述如下:
在步骤S101中,建立用户行为数据样本。
在本发明实施例中,智能电视首先获取用户的原始行为数据,然后根据预先建立的数据规范清洗、格式化整理所述原始行为数据,形成新的符合规范的用户行为数据样本,最后为这些完整的、符合规范的用户行为数据样本建立数据存储标签和分类目录,并导入至大数据存储平台中。
其中,由于原始行为数据杂乱纷呈、千差万别,具体呈现无序化,同时原始行为数据收集的过程中会有一些“脏数据”出现,因此,需要预先建立数据规范,通过该数据规范对原始行为数据进行规整。
大数据存储平台如图2所示,包括数据存储服务集群和元数据存储服务集群及应用服务器集群。
数据存储服务集群是由多个节点构成的一种松散耦合的节点集合,协同起来对外提供服务。数据存储服务集群不仅具有高性能、高可用或负载均衡的优点,还可以消除单点故障和性能瓶颈问题,并且具有Scale-Out横向高扩展能力,可以实现容量和性能线性扩展。数据存储服务集群的高可用性可以提高***和应用的可用性。
数据存储服务集群通过图2所示的D_1_1、D_1_2…、D_2_n数据存储服务器提供透明的冗余处理能力,从而实现不间断应用的目标。这些服务器共同为客户端提供统一服务,其中每一台提供服务的服务器称为节点(Node)。当一个节点不可用或者不能处理客户端的请求时,该请求会及时转到另外的可用节点来处理,而这一过程对于客户端是不可见的,完全透明。数据存储服务集群是为了提高***的可用性,可以在单个节点出现故障的时候,持续满足客户的需求。
每台数据存储服务器中存储的数据文件都有一定数量的副本(Replication)。每个副本都是对原始数据的完全拷贝。通过机架感知,将大数据存储平台中的副本存储在不同机架上,可以有效地提高文件的可用性,避免在机架分布的节点由于网络断开或机器故障等动态不可测因素而引起的数据丢失或不可获取。
副本存储启用机架感知功能,还可以起到提高***性能的作用。通过合理的选择存储节点放置副本,并配合路由协议,可以实现数据近端访问,减少访问延迟,提高***性能。另外,通过副本机制可以把数据请求合理地分布到不同的节点和网络路径中,利用其它节点平衡负载,可以有效地解决数据热点问题,数据访问洪峰也可以有效的解决。对于较大的文件,还可以通过对多个副本的并行读取,进一步分散和平衡节点负载,提高文件读取的效率,提高***的I/O性能。
在步骤S102中,从所述用户行为数据样本中选取k个用户的行为数据,并将所述k个用户的行为数据分别作为k个簇的各自的中心。
在本发明实施例中,智能电视先从大数据存储平台获取用户行为数据样本,再从获取的用户行为数据样本中选取k个用户的行为数据,并将所述k个用户的行为数据分别作为k个簇的各自的中心。
具体的,本发明实施例中,对于k个用户的行为数据的选取,采用了基于时间轴的电子节目坐标系的算法,选取k个时间点以及该k个时间点对应节目单作为k个用户的行为数据。
通过以下步骤来选取k个用户的行为数据:
步骤1、计算所述用户行为数据样本中的用户的行为数据之间的距离。
具体的,计算用户i和用户j的行为数据之间的距离dk,其中,dk满足下述公式:
dk=d(χi,χj)
其中,χi和χj分别表示用户i和用户j的行为数据,k为大于等于1小于等于n的自然数,n为用户行为数据样本中的用户的数量。
步骤2、计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值。
具体的,dk为两个行为数据之间的距离,对这些距离求平均值,可以得到用户的行为数据之间的距离的距离向量平均值满足下述公式:
步骤3、计算所述距离向量平均值的平均值,得到距离平均值。
具体的,通过下述公式计算得到距离平均值
其中,为第k个点的距离向量平均值,为n个点的距离向量平均值的平均值。
步骤4、根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值。
具体的,通过下述公式计算得到偏差值δ:
其中,λ为修正因子。
步骤5、如果所述偏差值满足预设的条件,则计算所述第k点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
具体的,如果通过公式计算得到的δ值满足预设的条件,则将对应的第k点的距离向量平均值作为所要选取的第k个用户的行为数据。
下面举例说明一下步骤1至步骤5的执行过程:
1、根据P点到其它各点的距离分别为10,262,23……17;
2、计算这些距离的平均值
3、重复1、2步骤,计算出其它各点的分别为32,22,23……96;
4、计算第3步结果的平均值
5、设λ=1.0,设δ大于0.2时,δ满足预设的条件,计算δ=1.0*|56-88|/88=0.36则P点即为选择的点,将P点的距离向量平均值作为所要选取的第P个用户的行为数据。
本发明实施例中的选取k个用户的行为数据的方法,相比现有技术的随机性选取方法,使得整个聚类算法不容易陷入低效耗,由于很准确地确定了k个用户的行为数据,在聚类算法的后续处理中,聚类结果的收敛速度明显加快。
在步骤S103中,分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果。
在本发明实施例中,智能电视计算用户的行为数据与k个簇的各自的中心的相异度,并将用户的行为数据划归至相异度最低的簇的详细步骤包括:
步骤11、计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离。
具体的,如图3所示,用户行为数据样本中包括用户A、用户B、用户C、用户D、用户E的行为数据以及通过步骤S102选取的2个用户的行为数据,将这2个用户的行为数据分别作为2个簇的各自的中心,可以通过计算用户A、用户B、用户C、用户D、用户E的行为数据与这2个簇的各自的中心的距离,通过计算该距离来获得用户A、用户B、用户C、用户D、用户E的行为数据与这2个簇的各自的中心的相异度。
其中,采用欧几里德距离算法来计算用户A、用户B、用户C、用户D、用户E的行为数据与这2个簇的各自的中心的距离,公式如下:
其中,x1表示第一个点的第i维坐标,x2表示第二个点的第i维坐标
n为欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),…x(n)),其中x(i)(i=1,2…n)是实数,称为x的第i个坐标,d(x,y)表示点x和点y=(y(1),y(2)…y(n))之间的欧几里德距离。
步骤12、将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
具体的,计算得到用户A、用户B、用户C、用户D、用户E的行为数据与这2个簇的各自的中心的距离后,将这些用户的行为数据划归至与其之间的欧几里德距离最小的簇中。比如,如图3所示,通过步骤11计算得到用户A、用户B的行为数据与右上角簇的中心的距离小,则将用户A、用户B的行为数据划归到右上角的簇中,用户C、用户D、用户E的行为数据与左下角簇的中心的距离小,则将用户C、用户D、用户E的行为数据划归到左下角的簇中。
在步骤S104中,根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心。
在本发明实施例中,如图3所示,根据聚类结果,分别计算右上角的簇的中心和左下角的簇的新的中心。具体通过计算各个簇中的所有用户行为数据的算术平均值来得到各个簇的新的中心。
在步骤S105中,分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回步骤S104,直至聚类结果不再发生变化或者步骤S104执行的次数达到预设的次数。
在本发明实施例中,步骤S104和S105的执行过程示意如图3所示,具体不再赘述。当聚类结果不再发生变化或者步骤S104执行的次数达到预设的次数时,将得到的聚类结果作为最终的用户的行为数据分类结果。
本实施例,通过对用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群。由于相似用户群中的用户一般具有相同的偏好,因此,可以将与当前用户相似的用户曾经看过的视频,曾经浏览过的网站或者曾经购买过的物品推荐给当前用户,更好的为用户提供个性化的服务,提升用户的使用体验。尤其是,k个用户的行为数据,相比现有技术,不是随机性选取的,使得整个聚类算法不容易陷入低效耗,由于很准确地确定了k个用户的行为数据,在聚类算法的后续处理中,聚类结果的收敛速度明显加快。
本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
实施例二
图4示出了本发明实施例二提供的用户行为数据的分析方法的实现流程。在整个流程中,智能电视先建立用户行为数据样本,再对建立的用户行为数据样本进行聚类处理,将行为数据比较相似的用户划归至一个簇中,形成一个相似用户群,最后,将处于同一簇中的相似用户群中的用户的行为数据之间的未被发现的关联关系找出来,找出行为数据中包含的隐形的关联网络,具体过程详述如下:
在步骤S401中,建立用户行为数据样本。
在步骤S402中,从所述用户行为数据样本中选取k个用户的行为数据,并将所述k个用户的行为数据分别作为k个簇的各自的中心。
在步骤S403中,分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果。
在步骤S404中,根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心。
在步骤S405中,分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回步骤S404,直至聚类结果不再发生变化或者步骤S404执行的次数达到预设的次数。
在步骤S406中,扫描聚类结果中的一个指定簇中的所有用户的行为数据。
在本发明实施例中,智能电视扫描聚类结果中的一个指定簇中的所有用户的行为数据。比如扫描得到的指定簇中包括的用户的行为数据如表1所示:
用户记录 | 观看视频ID |
R1 | T1,T2,T5 |
R2 | T2,T3 |
R3 | T2,T4 |
R4 | T1,T2,T4 |
R5 | T1,T3 |
R6 | T2,T3 |
R7 | T1,T3 |
R8 | T1,T2,T3,T5 |
R9 | T1,T2,T3 |
表1
在步骤S407中,根据所述行为数据,生成频繁1项集至频繁N项集,并计算每个频繁项集的支持度,其中,频繁N项集中只有一个项集。
在本发明实施例中,根据表1中用户的行为数据,可以计算得到指定簇中的用户的相应行为的发生次数,然后根据各个行为发生的次数,生成不同的频繁项集以及各个频繁项集的支持度。比如,对表1中的行为数据,可以生成频繁1项集、频繁2项集、频繁3项集和频繁4项集。其中,频繁1项集中包括一个项集,频繁2项集中包括2个项集,依次类推,频繁N项集中包括N个项集。
具体的,生成的频繁1项集如下所示:
[T1]6
[T2]7
[T3]6
[T4]2
[T5]2
频繁2项集如下所示:
[T1,T2]4
[T1,T3]4
[T1,T5]2
[T2,T3]4
[T2,T4]2
[T2,T5]2
频繁3项集如下所示:
[T1,T2,T3]2
[T1,T2,T5]2
频繁4项集如下所示:
[T1,T2,T3,T5]1
其中,若频繁k项集中只有一个项集时,则不再生成频繁k+1项集。
在步骤S408中,根据频繁N项集中的每个项集的支持度以及频繁N-1项集至频繁1项集中的每个项集的支持度,计算得到用户的行为数据之间的关联规则。
其中,每个项集的支持度对应每个行为发生的次数。比如,频繁1项集中项集[T1]在表1所示的用户的行为数据中出现6次,所以,项集[T1]的支持度为6。
在本发明实施例中,以频繁3项集[T1,T2,T5]为例,它的非空真子集有[T1,T2],[T1,T5],[T2,T5],[T1],[T2],[T5],计算得到[T1,T2,T5]对应[T1,T2],[T1,T5],[T2,T5],[T1],[T2],[T5]的置信度:
[T1,T2]-》[T5] 2/4=50%
[T1,T5]-》[T2] 2/2=100%
[T2,T5]-》[T1] 2/2=100%
[T1]-》[T2,T5] 2/6=33%
[T2]-》[T1,T5] 2/7=29%
[T5]-》[T1,T2] 2/2=100%
如果预设的置信度的最小阈值是60%,则产生的关联规则有[T1,T5]-》[T2],[T2,T5]-》[T1],[T5]-》[T1,T2]。
其中,两种事件产生关联规则,表示这两种同时发生的概率比较高。比如,本实施例中的[T1,T5]与[T2]产生关联规则,表示,[T1,T5]出现时,出现[T2]的概率很高。
本实施例,可以将处于同一簇中的相似用户群中的用户的行为数据之间的未被发现的关联关系找出来,找出行为数据中包含的隐形的关联网络,在决定推荐给用户推荐某一视频时,可以将与该视频产生关联规则的其它视频推荐给用户,可以进一步提升用户的使用体验。
实施例三
图5示出了本发明实施例三提供的用户行为数据的分析装置的具体结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
该装置可以是内置于智能电视中的软件单元、硬件单元或者软硬件结合的单元,该装置5包括:行为数据样本建立单元51、第一簇中心确定单元52、第一聚类结果生成单元53、第二簇中心确定单元54和第二聚类结果生成单元55。
其中,行为数据样本建立单元51,用于建立用户行为数据样本;
第一簇中心确定单元52,用于从所述用户行为数据样本中选取k个用户的行为数据,将所述k个用户的行为数据分别作为k个簇的各自的中心;
第一聚类结果生成单元53,用于分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果;
第二簇中心确定单元54,用于根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心;
第二聚类结果生成单元55,用于分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回调用第二簇中心确定单元,直至聚类结果不再发生变化或者步骤D执行的次数达到预设的次数。
具体的,所述第一簇中心确定单元52包括:距离计算模块、距离向量平均值计算模块、距离平均值计算模块、偏差值计算模块和簇中心确定模块。
其中,距离计算模块,用于计算所述用户行为数据样本中的用户的行为数据之间的距离;
距离向量平均值计算模块,用于计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值,所述距离向量平均值是第k个点的距离向量平均值;
距离平均值计算模块,用于计算所述距离向量平均值的平均值,得到距离平均值;
偏差值计算模块,用于根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值;
簇中心确定模块,用于如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
具体的,所述第一聚类结果生成单元53和者所述第二聚类结果生成单元55均包括:
欧几里德距离计算模块,用于计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离;
用户分类模块,用于将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
本发明实施例提供的用户行为数据的分析装置可以应用在前述对应的方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
实施例四
图6示出了本发明实施例四提供的用户行为数据的分析装置的具体结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。该装置可以是内置于智能电视中的软件单元、硬件单元或者软硬件结合的单元,该装置6包括实施例三中所述的行为数据样本建立单元51、第一簇中心确定单元52、第一聚类结果生成单元53、第二簇中心确定单元54和第二聚类结果生成单元55,还包括:
其中,行为数据扫描单元61,用于扫描聚类结果中的一个指定簇中的所有用户的行为数据;
频繁项集及支持度生成单元62,用于根据所述行为数据,生成频繁1项集至频繁N项集,并计算频繁项集中的每个项集的支持度,其中,频繁N项集中只有一个项集;
关联规则生成单元63,用于根据频繁N项集中的每个项集的支持度以及频繁N-1项集至频繁1项集中的每个项集的支持度,计算得到用户的行为数据之间的关联规则。
本发明实施例提供的用户行为数据的分析装置可以应用在前述对应的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
值得注意的是,上述***实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种用户行为数据的分析方法,其特征在于,所述方法包括:
步骤A、建立用户行为数据样本;
步骤B、从所述用户行为数据样本中选取k个用户的行为数据,将所述k个用户的行为数据分别作为k个簇的各自的中心;
步骤C、分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果;
步骤D、根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心;
步骤E、分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回步骤D,直至聚类结果不再发生变化或者步骤D执行的次数达到预设的次数;
在所述步骤E之后,还包括:
扫描聚类结果中的一个指定簇中的所有用户的行为数据;
根据所述行为数据,生成频繁1项集至频繁N项集,并计算频繁项集中的每个项集的支持度,其中,频繁N项集中只有一个项集;
根据频繁N项集中的项集的支持度以及频繁N-1项集至频繁1项集中的项集的支持度,计算得到用户的行为数据之间的关联规则。
2.如权利要求1所述的方法,其特征在于,所述步骤B包括:
计算所述用户行为数据样本中的用户的行为数据之间的距离;
计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值,所述距离向量平均值是第k个点的距离向量平均值;
计算所述距离向量平均值的平均值,得到距离平均值;
根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值;
如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
3.如权利要求1所述的方法,其特征在于,计算用户的行为数据与k个簇的各自的中心的相异度,并将用户的行为数据划归至相异度最低的簇包括:
计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离;
将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
4.如权利要求2所述的方法,其特征在于,所述如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据具体为:
如果通过公式计算得到的δ值满足预设的条件,则将对应的第k点的距离向量平均值作为所要选取的第k个用户的行为数据;
其中,为第k个点的距离向量平均值,为距离平均值,λ为修正因子,δ为距离向量平均值与距离平均值之间的偏差值。
5.一种用户行为数据的分析装置,其特征在于,包括:
行为数据样本建立单元,用于建立用户行为数据样本;
第一簇中心确定单元,用于从所述用户行为数据样本中选取k个用户的行为数据,将所述k个用户的行为数据分别作为k个簇的各自的中心;
第一聚类结果生成单元,用于分别计算所述用户行为数据样本中的其余用户的行为数据与所述k个簇的各自的中心的相异度,并将其余用户的行为数据分别划归至相异度最低的簇,得到聚类结果;
第二簇中心确定单元,用于根据聚类结果,重新计算k个簇的各自的中心,得到k个簇的各自的新的中心;
第二聚类结果生成单元,用于分别计算所述用户行为数据样本中的所有用户的行为数据与所述k个簇的各自的新的中心的相异度,并将所有用户的行为数据分别划归至相异度最低的簇,得到聚类结果,返回调用第二簇中心确定单元,直至聚类结果不再发生变化或者步骤D执行的次数达到预设的次数;
所述装置还包括:
行为数据扫描单元,用于扫描聚类结果中的一个指定簇中的所有用户的行为数据;
频繁项集及支持度生成单元,用于根据所述行为数据,生成频繁1项集至频繁N项集,并计算频繁项集中的每个项集的支持度,其中,频繁N项集中只有一个项集;
关联规则生成单元,用于根据频繁N项集中的项集的支持度以及频繁N-1项集至频繁1项集中的项集的支持度,计算得到用户的行为数据之间的关联规则。
6.如权利要求5所述的装置,其特征在于,所述第一簇中心确定单元包括:
距离计算模块,用于计算所述用户行为数据样本中的用户的行为数据之间的距离;
距离向量平均值计算模块,用于计算所述距离的平均值,得到用户的行为数据之间的距离的距离向量平均值,所述距离向量平均值是第k个点的距离向量平均值;
距离平均值计算模块,用于计算所述距离向量平均值的平均值,得到距离平均值;
偏差值计算模块,用于根据所述距离向量平均值以及所述距离平均值计算所述距离向量平均值与所述距离平均值之间的偏差值;
簇中心确定模块,用于如果所述偏差值满足预设的条件,则计算所述第k个点的距离向量平均值所对应的用户的行为数据,将所述第k个点的距离向量平均值所对应的用户的行为数据作为所选取的第k个用户的行为数据。
7.如权利要求5所述的装置,其特征在于,所述第一聚类结果生成单元和所述第二聚类结果生成单元均包括:
欧几里德距离计算模块,用于计算用户的行为数据与所述k个簇的各自的中心的欧几里德距离;
用户分类模块,用于将用户的行为数据划归至与用户的行为数据之间的欧几里德距离最小的簇。
8.一种智能电视,其特征在于,所述智能电视包括如权利要求5至7任一项所述的用户行为数据的分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410380588.8A CN105320702B (zh) | 2014-08-04 | 2014-08-04 | 一种用户行为数据的分析方法、装置及智能电视 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410380588.8A CN105320702B (zh) | 2014-08-04 | 2014-08-04 | 一种用户行为数据的分析方法、装置及智能电视 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105320702A CN105320702A (zh) | 2016-02-10 |
CN105320702B true CN105320702B (zh) | 2019-02-01 |
Family
ID=55248102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410380588.8A Active CN105320702B (zh) | 2014-08-04 | 2014-08-04 | 一种用户行为数据的分析方法、装置及智能电视 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320702B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526735B (zh) * | 2016-06-20 | 2020-12-11 | 杭州海康威视数字技术股份有限公司 | 一种关联关系的识别方法及装置 |
CN106412635B (zh) * | 2016-09-29 | 2019-07-30 | 北京赢点科技有限公司 | 一种智能化广告投放方法及*** |
CN107623715B (zh) * | 2017-08-08 | 2020-06-09 | 阿里巴巴集团控股有限公司 | 一种身份信息获取方法和装置 |
CN109861953B (zh) | 2018-05-14 | 2020-08-21 | 新华三信息安全技术有限公司 | 一种异常用户识别方法及装置 |
CN109753994B (zh) * | 2018-12-11 | 2024-05-14 | 东软集团股份有限公司 | 用户画像方法、装置、计算机可读存储介质及电子设备 |
CN110929145B (zh) * | 2019-10-17 | 2023-07-21 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN112783956B (zh) * | 2019-11-08 | 2024-03-05 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法和装置 |
CN111159555A (zh) * | 2019-12-30 | 2020-05-15 | 北京每日优鲜电子商务有限公司 | 商品推荐方法、装置、服务器和存储介质 |
CN113378020A (zh) * | 2021-06-08 | 2021-09-10 | 深圳Tcl新技术有限公司 | 相似观影用户的获取方法、设备和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103353880A (zh) * | 2013-06-20 | 2013-10-16 | 兰州交通大学 | 一种利用相异度聚类和关联的数据挖掘方法 |
CN103886003A (zh) * | 2013-09-22 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种协同过滤处理器 |
CN103927347A (zh) * | 2014-04-01 | 2014-07-16 | 复旦大学 | 一种基于用户行为模型和蚁群聚类的协同过滤推荐算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101802332B1 (ko) * | 2010-11-25 | 2017-12-29 | 삼성전자주식회사 | 컨텐츠 제공 방법 및 그 시스템 |
-
2014
- 2014-08-04 CN CN201410380588.8A patent/CN105320702B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103353880A (zh) * | 2013-06-20 | 2013-10-16 | 兰州交通大学 | 一种利用相异度聚类和关联的数据挖掘方法 |
CN103886003A (zh) * | 2013-09-22 | 2014-06-25 | 天津思博科科技发展有限公司 | 一种协同过滤处理器 |
CN103927347A (zh) * | 2014-04-01 | 2014-07-16 | 复旦大学 | 一种基于用户行为模型和蚁群聚类的协同过滤推荐算法 |
Non-Patent Citations (1)
Title |
---|
"基于K-means算法的校园网用户行为聚类分析";潘莹等;《计算技术与自动化》;20070331;第26卷(第1期);66-69 |
Also Published As
Publication number | Publication date |
---|---|
CN105320702A (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105320702B (zh) | 一种用户行为数据的分析方法、装置及智能电视 | |
CN111027736B (zh) | 多目标优化下的微服务组合部署与调度方法 | |
EP3709184A1 (en) | Sample set processing method and apparatus, and sample querying method and apparatus | |
US10820296B2 (en) | Generating wireless network access point models using clustering techniques | |
JP5755822B1 (ja) | 類似度算出システム、類似度算出方法およびプログラム | |
US11100073B2 (en) | Method and system for data assignment in a distributed system | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
WO2020168992A1 (zh) | 一种商品推荐方法、装置、设备以及存储介质 | |
CN110990372A (zh) | 一种维度数据的处理方法及装置、数据查询方法及装置 | |
CN103455531A (zh) | 一种支持高维数据实时有偏查询的并行索引方法 | |
US20190042893A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
WO2020094064A1 (zh) | 性能优化方法、装置、设备及计算机可读存储介质 | |
US20130016908A1 (en) | System and Method for Compact Descriptor for Visual Search | |
CN107656989A (zh) | 云存储***中基于数据分布感知的近邻查询方法 | |
CN107844536B (zh) | 应用程序选择的方法、装置和*** | |
Pei | Some new progress in analyzing and mining uncertain and probabilistic data for big data analytics | |
Zhou et al. | JPR: Exploring joint partitioning and replication for traffic minimization in online social networks | |
CN114547384A (zh) | 资源对象处理方法、装置及计算机设备 | |
Song et al. | An Euclidean similarity measurement approach for hotel rating data analysis | |
US11061876B2 (en) | Fast aggregation on compressed data | |
CN103020234B (zh) | 一种面向同构对称发布及订阅***的Top-k查询方法 | |
CN109962956B (zh) | 用于向用户推荐通信业务的方法和*** | |
CN117556288B (zh) | 一种基于物联网的物理空间管理***及方法 | |
CN113609378B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN112861034B (zh) | 检测信息的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |