CN103744928A - 一种基于历史访问记录的网络视频分类方法 - Google Patents

一种基于历史访问记录的网络视频分类方法 Download PDF

Info

Publication number
CN103744928A
CN103744928A CN201310743880.7A CN201310743880A CN103744928A CN 103744928 A CN103744928 A CN 103744928A CN 201310743880 A CN201310743880 A CN 201310743880A CN 103744928 A CN103744928 A CN 103744928A
Authority
CN
China
Prior art keywords
video
attribute
access record
beta
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310743880.7A
Other languages
English (en)
Other versions
CN103744928B (zh
Inventor
宿红毅
朱叶
王彩群
闫波
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310743880.7A priority Critical patent/CN103744928B/zh
Publication of CN103744928A publication Critical patent/CN103744928A/zh
Application granted granted Critical
Publication of CN103744928B publication Critical patent/CN103744928B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于历史访问记录的网络视频分类方法,属于计算机网络数据挖掘技术领域。首先通过对视频的历史访问记录数据集进行自动分析,抽取出有意义的特征后对其生成待用数据文件,通过所述数据文件将历史访问记录转化为可用于训练的结构化文档,然后用逻辑回归对所结构化文档进行机器学习得到预测模型。使用预测模型,根据待预测视频历史访问记录信息的完整程度,对其选用相应的方法进行分类预测。本发明对比现有技术,在减少人工代价的同时,使参与计算的参数更为精简,预测效果更为准确、花费的时间更少。同时,由于可以根据待预测视频历史访问记录信息的完整程度对其选择聚类与否的操作,使其模型的应用更为广泛。

Description

一种基于历史访问记录的网络视频分类方法
技术领域
本发明涉及一种网络视频分类方法,属于计算机网络数据挖掘技术领域。 
背景技术
随着数据库技术的迅速发展、数据库管理***的广泛应用和Internet的迅速普及,互联网上的视频(以下简称视频)历史访问记录数据量急剧增长。激增的数据后面蕴涵着大量的“宝藏”,即事先未知而潜在有用的信息。面对大规模的海量数据,数据挖掘技术应运而生,从大量的、不完全的、有噪声的、模糊的、随机的、实际应用的数据中提取隐含在其中的、人们不知道的但又有用的信息和知识的过程。 
数据挖掘的任务主要有分类、预测、关联分析、时序模式、聚类、偏差检测等。每种问题都有许多具体的数据挖掘或统计模型来加以解决。 
其中,分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的样本赋予类别的一种技术。构造分类器的过程一般分为模型训练和使用模型分类两个步骤。在模型训练阶段,分析训练数据集的特点,为每个类别产生一个对相应数据集的准确描述或模型。在模型使用阶段,根据待分类对象的数据描述信息,利用模型对其进行分类。 
分类算法主要包括神经网络方法、决策树分类法、统计方法等。其中,统计方法主要有回归和朴素贝叶斯分类算法。回归分类包括一般的线形回归和Logist回归(或称为逻辑回归),都是将数据分为两类。普通的Logist回归是用事件发生的概率与不发生该事件的概率之比来进行分类的,对于多分类问题则会采取Logist回归的一种自然扩展Logit回归。目前,应用最为广泛的是基于逻辑回归的预测方法:通过对数据集进行分析、建模,对待分类的对象进行二分类预测。然而,数据集中的知识(属性)并不是同等重要的,还存在冗余,这不利于做出正确而简洁的决策。而较优的数据集拥有如下指标:个数较少;属性的规则数目较少;最终范化规则数目较少等。但是,现存的基于逻辑回归的预测方法在数据集的精简方面都存在一些局限性,如只对属性的重要度进行排序而忽略 了取值的离散分布、没有考虑属性之间的相关性等等。 
发明内容
本发明的目的是为了克服当前基于逻辑回归的预测方法在数据集精简方面所存在的不足,提出一种基于历史访问记录的网络视频分类方法。 
本发明所述方法在保持知识库的分类和决策能力不变的条件下,通过对数据集特征的抽取过程进行优化,删除不相关或不重要的属性,避免了变量之间所反映信息的重叠,从而使数据集达到了最为精简,并减少了人工代价。由于参与计算的参数更为精简,使预测效果更为准确、时间效果更为提升。本方法简单、易行,适合目前广泛流行的分布式计算应用。 
本发明所述方法包括以下步骤: 
步骤一、建立预测模型 
首先,进行特征抽取。通过对视频的历史访问记录数据集进行自动分析,抽取出最精简的属性特征后生成待用数据文件,通过所述数据文件将历史访问记录数据集转化为可用于训练的结构化文档。 
然后,进行模型训练。采用逻辑回归方法,对所述结构化文档进行机器学习,得到预测模型。 
步骤二、采用预测模型,对视频进行欢迎程度预测 
首先,判断视频历史访问记录的信息完整性。如果视频是新视频,即历史访问记录信息不完整,则使用聚类方法找到与其相似性最高的视频,将其历史访问记录信息设为新视频的历史访问记录信息。如果视频不是新视频,即历史访问记录信息完整,直接进行下面的操作。 
然后,对待预测视频的历史访问记录信息进行特征抽取,使用预测模型对其进行欢迎与否的分类。 
有益效果 
本发明采用基于历史访问记录的网络视频分类方法,对视频的欢迎与否进行预测。通过对视频的历史访问记录数据集进行特征抽取等属性约简,进而建立相应的预测模型。完整的历史访问记录分析方法,在减少人工代价的同时,使参与计算的参数更为精简,预测效果更为准确、花费的时间更少。同时,由于可以根据待预测视频历史访问记录信息的完整程度对其选择聚类与否的操作, 使其模型的应用更为广泛。 
附图说明
图1为本发明方法的流程图。 
具体实施方式
下面结合附图及实施例对本发明的具体实施方式做进一步详细说明。 
如图1所述,一种基于历史访问记录的网络视频分类方法,包括以下步骤: 
步骤一、对视频历史访问记录数据集进行分析,抽取出最精简的属性特征并生成待用数据文件。通过所述待用数据文件将视频历史访问记录转化为待训练结构化文档。具体过程如下: 
首先,对视频历史访问记录数据集,利用值分析方法去掉取值不正常的数据和属性,包括取值无变化的属性、缺失的或者噪音的数据、去除播放次数小于某一阀值的视频记录等等,得到数据集U。 
然后,利用基于互信息增益率的启发式属性约简算法,训练对数据集U的属性集进行约简。约简由核开始,逐步选择Z(c,R,D)达到最大的属性加入,直到所选择的属性子集分类能力与整个属性集的分类能力相同时结束。具体步骤如下: 
第一步,将预测***S定义为一个四元组:S=(U,A,V,f),其中U={u1,u2,…,un}是视频对象集,即论域;A是视频的属性集合;
Figure BDA0000449771950000031
为属性值的集合,Va为属性a的值域;f是U×A→Va的映射,它为U中各视频对象的属性指定唯一值。 
对于预测***S,将属性集合A分为条件属性集C和决策属性集D,A=C∪D,且C∩D=φ,其中属性集C中包含的元素有视频IDc1、标题c2、类型c3、时长c4、URLc5、URL信誉度c6等;决策属性集合D包括受欢迎与否d。将该做了上述变化的预测***S命名为决策***L。由于在S中,对于属性集
Figure BDA0000449771950000034
,可构造对应的二元等价关系,当
Figure BDA0000449771950000035
有a(x)=a(y)},称IG为由G构造的不可分辨关系。则对决策***L=(U,C∪D,V,f),设
Figure BDA0000449771950000036
,IR和ID导出的划分分别为X={X1,X2,…Xn}和Y={Y1,Y2,…Yn},则R的熵定义为
Figure BDA0000449771950000033
其中 p(Xi)=card(Xi)/card(U)。R相对D的条件熵定义为  H ( D / R ) = - Σ i = 1 n p ( X i ) Σ j = 1 m p ( Y j / X i ) / gp ( Y j / X i ) , 其中p(Yj/Xi)=card(Yj∩Xi)/card(Xi))。决策属性集D和条件属性子集R的互信息定义为:W(R;D)=H(D)-H(D/R),属性重要性的度量方法定义为:Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c),其中
Figure BDA0000449771950000042
pi是属性取值为xi的对象的个数占总对象数N的比例,设属性c有m种取值x1,x2.…,xm,N为总对象数。 
第二步,计算条件属性集C和决策属性集D的互信息W(C;D)=H(D)-H(D/C); 
第三步,计算核R=CORED(C),并计算W(R;D)。其中核的计算过程为: 
1.设CORED(C)=φ; 
2.对于条件属性集C中的所有属性r,如果H({d}/C)<H({d}/C-{r}),则 
CORED(C)=CORED(C)∪{r}. 
3.结束。 
第四步,令Ccandidate=C-R,按Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c)计算Ccandidate中各属性的重要性,并选择Z(c,R,D)达到最大的属性ci; 
第五步,令R=R∪{ci},若W(C;D)=W(R;D),则终止,并将约简后的属性集所对应的数据集用U′表示;否则转第四步继续执行。 
之后,对数据集U′进行主成分分析,得到彼此不相关的若干个主成分。具体步骤如下: 
第一步,对数据集U′进行Z标准化,得到数据集U′′; 
第二步,对数据集U′′进行主成分分析,得出各主成分的特征值、方差贡献率及累计方差贡献率,其中,对特征值按由大到小的方式进行排序。根据主成分累计方差贡献率大于85%的个数来确定主成分的个数k,根据主成分分析时得到的因子荷载表,写出k个主成分与数据集U′′中的各个属性之间的关系式,如 下所示,其中m为数据集U′′中属性的个数: 
Z 1 = &beta; 1 c 1 + &beta; 2 c 2 + . . . + &beta; m c m Z 2 = &beta; m + 1 c 1 + &beta; m + 2 c 2 + . . . + &beta; 2 m c m . . . . . . Z k = &beta; ( k - 1 ) m + 1 c 1 + &beta; ( k - 1 ) m + 2 c 2 + . . . + &beta; km c m
步骤二、用逻辑回归方法,对所述结构化文档进行机器学习,得到预测模型。具体过程如下: 
对步骤二得到的各主成分值进行二元逻辑回归分析,得出逻辑回归模型: 
p = e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k 1 + e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k
其中α12,…,αk为预测模型经过训练后得到的参数,P的值越接近于1,说明待分类视频越受欢迎,P越接近于0,说明待分类视频为越不受欢迎。若p≥0.5,则待分类视频为受欢迎视频;若p<0.5,则待分类视频为不受欢迎视频; 
步骤三、使用预测模型对视频进行欢迎与否的测试,具体过程如下: 
首先判断视频历史访问记录的信息完整性。如果待预测视频是新视频,即该视频的历史访问记录不存在,但是其自身的一些特征信息是有的,比如视频ID、查询ID、视频的标题、描述、关键词等等,根据视频的特征信息计算tf-idf值,用tf-idf矩阵作为聚类模型的输入。运用tf-idf便能从文本的内容上进行聚类,得到新视频的最相似视频,并将其历史访问记录信息设为新视频的历史访问记录信息;如果待预测视频不是新视频,直接进行下一步。 
然后对待预测视频的历史访问记录数据进行相应的转化,即进行特征抽取。 
最后使用预测模型对其进行欢迎与否的分类。 
实施例 
本发明方法包括三阶段,第一阶段为对视频的历史访问记录进行特征抽取阶段,第二阶段为预测模型的训练阶段,第三阶段为待分类视频欢迎与否的预测阶段。 
参阅图l,下面详细叙述本实施例第一阶段的具体过程: 
步骤l:根据视频的历史访问记录数据量大小,去除播放次数小于某一阀值 的视频访问记录。具体地,根据对一些数据集的分析,这些历史访问记录在一定程度上都服从长尾效应,即包含许多点击次数不够多的视频记录,所以处理的第一步,应该设定Q为阀值,移除点击次数低于此阀值的视频记录。然后去掉一些取值无变化的属性列,从而得到初步输入数据集U; 
步骤2:对数据集U的属性集进行约简,约简由核开始,逐步选择重要的属性加入,直到所选择的属性子集分类能力与整个属性集U的分类能力相同时结束。具体地,经过步骤l的初步筛选后,初步得到的输入数据集中条件属性集合C={视频ID、视频在网页中所处位置和深度标题、查询ID、视频的标题、描述、关键词,类型1,类型2,类型3,视频的播放次数,分享次数,收藏次数,下载次数,分享率,收藏率,下载率,点赞率,播放次数增长率,URL,URL信誉度,更新频率,评论数目,浏览器,正面评论占的比率,时间戳,时长,被观看时长,被观看时长占的比率}。先计算条件属性C与决策属性D的互信息W(C,D)=0.283,以及相对核属性KD(C)={视频在网页中所处位置和深度标题,类型1,视频的播放次数,URL信誉度,评论数目},然后分别计算剩余属性的重要性分别为 
Z(c20,R,D)=(W(R∪{c20};D)-W(R;D))/H(c20)=0.2182           , 
Z(c18,R,D)=(W(R∪{c18};D)-W(R;D))/H(c18)=0.2180           , 
Z(c10,R,D)=(W(R∪{c10};D)-W(R;D))/H(c10)=0.2160           , 
Z(c8,R,D)=(W(R∪{c8};D)-W(R;D))/H(c8)=0.2134           , 
Z(c14,R,D)=(W(R∪{c14};D)-W(R;D))/H(c14)=0.2032           , 
Z(c23,R,D)=(W(R∪{c23};D)-W(R;D))/H(c23)=0.1123           , 
Z(c27,R,D)=(W(R∪{c27};D)-W(R;D))/H(c27)=0.1012,…        , 
Z(c6,R,D)=(W(R∪{c6};D)-W(R;D))/H(c6)=0.0110,由重要度的高低次序,将属性加入条件属性集合得到C′={视频在网页中所处位置和深度标题、视频的标题、关键词,类型1,类型2,类型3,视频的播放次数,分享率,收藏率,下载率,点赞率,播放次数增长率,URL信誉度,更新频率,评论数目,浏览器,正面评论占的比率,时间戳,被观看时长占的比率}; 
步骤3:对条件属性集合C′进行主成分分析,得到彼此不相关的若干个主成分。具体步骤如下: 
i)对条件属性集合C′对应的数据集U′进行Z标准化得到数据集U′′; 
ii)对数据集U′′进行主成分分析,求出各主成分的特征值(由大到小的方式进行排序)、方差贡献率及累计方差贡献率,根据主成分累计方差贡献率大于85%的个数来确定主成分的个数k,根据主成分分析时得到的因子荷载表,写出k个主成分与条件属性集合C′中的各个属性之间的关系式,如: 
Z 1 = &beta; 1 c 1 + &beta; 2 c 2 + &CenterDot; &CenterDot; &CenterDot; + &beta; m c m Z 2 = &beta; m + 1 c 1 + &beta; m + 2 c 2 + &CenterDot; &CenterDot; &CenterDot; + &beta; 2 m c m &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; Z k = &beta; ( k - 1 ) m + 1 c 1 + &beta; ( k - 1 ) m + 2 c 2 + &CenterDot; &CenterDot; &CenterDot; + &beta; km c m
以上步骤1-3为本实施例第一阶段的特征抽取阶段的具体过程,得到了结构化的文档用作后续模型训练的输入。 
在第一阶段后,进入第二阶段,即模型训练阶段,此阶段用逻辑回归对第一阶段到的结构化文档进行机器学习,得到预测模型。 
在众多机器学习算法中,逻辑回归是一种高效又表现理想的算法。逻辑回归会充分用到所有的特征练预测模型,如得出的逻辑回归模型: 
p = e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k 1 + e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k
第三阶段为视频欢迎与否的预测阶段,具体包括以下阶段: 
步骤1:判断待预测视频的描述信息的完整性; 
步骤2:若待预测视频不是新视频,即有一定的历史访问记录数据,则对其数据进行特征值的抽取,转化成结构化文档形式,而后代入预测模型进行欢迎与否预测; 
步骤3:若待预测视频是新视频,使用聚类找到与其相似性最高的视频,并将新的描述信息设为待预测视频的描述信息,然后进其进行相应的预测操作; 
具体的,将如何预测出新视频欢迎与否的问题转换成找到与此视频最相似的集合,即转换成了聚类问题。 
本发明针对待预测视频的条件属性计算tf-idf值,用tf-idf矩阵作为聚类模型的输入,运用tf-idf能从数据集的内容上进行聚类,以此方法计算出的相似性更为准确. 
由此,本实施例通过三个步骤的处理,得到了对新视频欢迎与否的预测, 使得视频能够得到更准确的预测,和更精准的投放。 
以上所述的具体实例是对本发明的进一步解释说明,并不用于限定本发明的保护范围,凡在本发明原则和精神之内,所做的更改和等同替换都应是本发明的保护范围之内。 

Claims (1)

1.一种基于历史访问记录的网络视频分类方法,其特征在于,包括以下步骤:
步骤一、对视频历史访问记录数据集进行分析,抽取出最精简的属性特征并生成待用数据文件,通过所述待用数据文件将视频历史访问记录转化为待训练结构化文档;具体过程如下:
首先,对视频历史访问记录数据集,利用值分析方法去掉取值不正常的数据和属性,包括取值无变化的属性、缺失的或者噪音的数据、去除播放次数小于某一阀值的视频记录等等,得到数据集U;
然后,利用基于互信息增益率的启发式属性约简算法,训练对数据集U的属性集进行约简;约简由核开始,逐步选择Z(c,R,D)达到最大的属性加入,直到所选择的属性子集分类能力与整个属性集的分类能力相同时结束,具体步骤如下:
第一步,将预测***S定义为一个四元组:S=(U,A,V,f),其中U={u1,u2,…,un}是视频对象集,即论域;A是视频的属性集合;
Figure FDA0000449771940000011
为属性值的集合,Va为属性a的值域;f是U×A→Va的映射,它为U中各视频对象的属性指定唯一值;
对于预测***S,将属性集合A分为条件属性集C和决策属性集D,A=C∪D,且C∩D=φ,其中属性集C中包含的元素有视频IDc1、标题c2、类型c3、时长c4、URLc5、URL信誉度c6等;决策属性集合D包括受欢迎与否d;将该做了上述变化的预测***S命名为决策***L;由于在S中,对于属性集
Figure FDA0000449771940000015
,构造对应的二元等价关系,当
Figure FDA0000449771940000012
有a(x)=a(y)},称IG为由G构造的不可分辨关系,则对决策***L=(U,C∪D,V,f),设
Figure FDA0000449771940000016
,IR和ID导出的划分分别为X={X1,X2,…Xn}和Y={Y1,Y2,…Yn},则R的熵定义为
Figure FDA0000449771940000013
其中p(Xi)=card(Xi)/card(U);R相对D的条件熵定义为 H ( D / R ) = - &Sigma; i = 1 n p ( X i ) &Sigma; j = 1 m p ( Y j / X i ) / gp ( Y j / X i ) , 其中p(Yj/Xi)=card(Yj∩Xi)/card(Xi));决策属性集D和条件属性子集R的互信息定义为:W(R;D)=H(D)-H(D/R),属性重要性的度量方法定义为:Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c),其中
Figure FDA0000449771940000021
pi是属性取值为xi的对象的个数占总对象数N的比例,设属性c有m种取值x1,x2.…,xm,N为总对象数;
第二步,计算条件属性集C和决策属性集D的互信息W(C;D)=H(D)-H(D/C);
第三步,计算核R=CORED(C),并计算W(R;D),其中核的计算过程为:
设CORED(C)=φ,对于条件属性集C中的所有属性r,如果H({d}/C)<H({d}/C-{r}),则CORED(C)=CORED(C)∪{r};
第四步,令Ccandidate=C-R,按Z(c,R,D)=(W(R∪{c};D)-W(R;D))/H(c)计算Ccandidate中各属性的重要性,并选择Z(c,R,D)达到最大的属性ci
第五步,令R=R∪{ci},若W(C;D)=W(R;D),则终止,并将约简后的属性集所对应的数据集用U′表示;否则转第四步继续执行;
之后,对数据集U′进行主成分分析,得到彼此不相关的若干个主成分,具体步骤如下:
第一步,对数据集U′进行Z标准化,得到数据集U′′;
第二步,对数据集U′′进行主成分分析,得出各主成分的特征值、方差贡献率及累计方差贡献率,其中,对特征值按由大到小的方式进行排序;根据主成分累计方差贡献率大于85%的个数来确定主成分的个数k,根据主成分分析时得到的因子荷载表,写出k个主成分与数据集U′′中的各个属性之间的关系式,如下所示,其中m为数据集U′′中属性的个数:
Z 1 = &beta; 1 c 1 + &beta; 2 c 2 + . . . + &beta; m c m Z 2 = &beta; m + 1 c 1 + &beta; m + 2 c 2 + . . . + &beta; 2 m c m . . . . . . Z k = &beta; ( k - 1 ) m + 1 c 1 + &beta; ( k - 1 ) m + 2 c 2 + . . . + &beta; km c m
步骤二、用逻辑回归方法,对所述结构化文档进行机器学习,得到预测模型,具体过程如下:
对步骤二得到的各主成分值进行二元逻辑回归分析,得出逻辑回归模型:
p = e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k 1 + e &alpha; 1 z 1 + &alpha; 2 z 2 + &alpha; 3 z 3 + . . . + &alpha; k z k
其中α12,…,αk为预测模型经过训练后得到的参数,P的值越接近于1,说明待分类视频越受欢迎,P越接近于0,说明待分类视频为越不受欢迎。若p≥0.5,则待分类视频为受欢迎视频;若p<0.5,则待分类视频为不受欢迎视频;
步骤三、使用上述预测模型对视频进行欢迎与否的测试,具体过程如下:
首先,判断视频历史访问记录的信息完整性,如果待预测视频是新视频,即该视频的历史访问记录不存在,根据视频的特征信息计算tf-idf值,用tf-idf矩阵作为聚类模型的输入,得到新视频的最相似视频,并将其历史访问记录信息设为新视频的历史访问记录信息;如果待预测视频不是新视频,直接进行下一步;
然后,对待预测视频的历史访问记录数据进行相应的转化,即进行特征抽取;
最后,使用预测模型对其进行欢迎与否的分类。
CN201310743880.7A 2013-12-30 2013-12-30 一种基于历史访问记录的网络视频分类方法 Expired - Fee Related CN103744928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310743880.7A CN103744928B (zh) 2013-12-30 2013-12-30 一种基于历史访问记录的网络视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310743880.7A CN103744928B (zh) 2013-12-30 2013-12-30 一种基于历史访问记录的网络视频分类方法

Publications (2)

Publication Number Publication Date
CN103744928A true CN103744928A (zh) 2014-04-23
CN103744928B CN103744928B (zh) 2017-10-03

Family

ID=50501946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310743880.7A Expired - Fee Related CN103744928B (zh) 2013-12-30 2013-12-30 一种基于历史访问记录的网络视频分类方法

Country Status (1)

Country Link
CN (1) CN103744928B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033425A (zh) * 2015-03-11 2016-10-19 富士通株式会社 数据处理设备和数据处理方法
CN106101831A (zh) * 2016-07-15 2016-11-09 合网络技术(北京)有限公司 视频向量化方法及装置
CN106354867A (zh) * 2016-09-12 2017-01-25 传线网络科技(上海)有限公司 多媒体资源的推荐方法及装置
CN107766360A (zh) * 2016-08-17 2018-03-06 北京神州泰岳软件股份有限公司 一种视频热度预测方法和装置
CN109726233A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 用于刻画用户形象的方法、计算机***和可读介质
CN109756780A (zh) * 2019-01-16 2019-05-14 武汉瓯越网视有限公司 一种视频处理的方法及装置
CN109766715A (zh) * 2018-12-24 2019-05-17 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及***
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN110149540A (zh) * 2018-04-27 2019-08-20 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质
CN111565316A (zh) * 2020-07-15 2020-08-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN114499917A (zh) * 2021-10-25 2022-05-13 ***股份有限公司 Cc攻击检测方法及cc攻击检测装置
CN115102779A (zh) * 2022-07-13 2022-09-23 中国电信股份有限公司 预测模型的训练、访问请求的决策方法、装置、介质
WO2023142408A1 (zh) * 2022-01-25 2023-08-03 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102088626B (zh) * 2009-12-02 2014-08-13 Tcl集团股份有限公司 一种在线视频推荐方法及视频门户服务***
CN102421025A (zh) * 2011-11-22 2012-04-18 康佳集团股份有限公司 一种基于节目内容属性的电视节目导航方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张龙飞等: "基于支持向量机元分类器的体育视频分类", 《北京理工大学学报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033425A (zh) * 2015-03-11 2016-10-19 富士通株式会社 数据处理设备和数据处理方法
CN106101831B (zh) * 2016-07-15 2019-06-18 合一网络技术(北京)有限公司 视频向量化方法及装置
CN106101831A (zh) * 2016-07-15 2016-11-09 合网络技术(北京)有限公司 视频向量化方法及装置
CN107766360A (zh) * 2016-08-17 2018-03-06 北京神州泰岳软件股份有限公司 一种视频热度预测方法和装置
CN106354867A (zh) * 2016-09-12 2017-01-25 传线网络科技(上海)有限公司 多媒体资源的推荐方法及装置
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN110149540B (zh) * 2018-04-27 2021-08-24 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质
CN110149540A (zh) * 2018-04-27 2019-08-20 腾讯科技(深圳)有限公司 多媒体资源的推荐处理方法、装置、终端及可读介质
CN109766715B (zh) * 2018-12-24 2023-07-25 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及***
CN109766715A (zh) * 2018-12-24 2019-05-17 贵州航天计量测试技术研究所 一种面向大数据环境隐私信息防泄露自动识别方法及***
CN109726233A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 用于刻画用户形象的方法、计算机***和可读介质
CN109756780B (zh) * 2019-01-16 2021-05-28 武汉瓯越网视有限公司 一种视频处理的方法及装置
CN109756780A (zh) * 2019-01-16 2019-05-14 武汉瓯越网视有限公司 一种视频处理的方法及装置
CN109886020B (zh) * 2019-01-24 2020-02-04 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109934278B (zh) * 2019-03-06 2023-06-27 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法
CN111565316A (zh) * 2020-07-15 2020-08-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN114499917A (zh) * 2021-10-25 2022-05-13 ***股份有限公司 Cc攻击检测方法及cc攻击检测装置
CN114499917B (zh) * 2021-10-25 2024-01-09 ***股份有限公司 Cc攻击检测方法及cc攻击检测装置
WO2023142408A1 (zh) * 2022-01-25 2023-08-03 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN115102779A (zh) * 2022-07-13 2022-09-23 中国电信股份有限公司 预测模型的训练、访问请求的决策方法、装置、介质
CN115102779B (zh) * 2022-07-13 2023-11-07 中国电信股份有限公司 预测模型的训练、访问请求的决策方法、装置、介质

Also Published As

Publication number Publication date
CN103744928B (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及***
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及***
CN104933183A (zh) 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN103914478A (zh) 网页训练方法及***、网页预测方法及***
CN101393555A (zh) 一种垃圾博客检测方法
CN111127105A (zh) 用户分层模型构建方法及***、运营分析方法及***
CN106776672A (zh) 技术发展脉络图确定方法
CN104156403A (zh) 一种基于聚类的大数据常态模式提取方法及***
KR101625124B1 (ko) 특허 정량분석을 이용한 기술평가 방법
Wang Research on the features of car insurance data based on machine learning
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与***
CN106649726A (zh) 一种社交网络中社团话题演化挖掘方法
CN104102730A (zh) 一种基于已知标签的大数据常态模式提取方法及***
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN105488599A (zh) 预测文章热度的方法和装置
CN116955613B (zh) 一种基于研报数据和大语言模型生成产品概念的方法
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
CN103823847A (zh) 一种关键词的扩充方法及装置
CN113792147A (zh) 基于用户需求预测产品设计参数的方法、装置及设备
Qiao et al. Constructing a data warehouse based decision support platform for China tourism industry
CN111242520B (zh) 特征合成模型的生成方法、装置及电子设备
CN111291198A (zh) 基于大数据的经济形势指数分析方法、***及计算机可读介质
CN117556118B (zh) 基于科研大数据预测的可视化推荐***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171003

Termination date: 20191230

CF01 Termination of patent right due to non-payment of annual fee