CN106326498A - 一种作弊视频识别方法及装置 - Google Patents

一种作弊视频识别方法及装置 Download PDF

Info

Publication number
CN106326498A
CN106326498A CN201610892400.7A CN201610892400A CN106326498A CN 106326498 A CN106326498 A CN 106326498A CN 201610892400 A CN201610892400 A CN 201610892400A CN 106326498 A CN106326498 A CN 106326498A
Authority
CN
China
Prior art keywords
video
title
cheating
averagely
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610892400.7A
Other languages
English (en)
Inventor
魏博
齐志兵
尹玉宗
姚键
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
1Verge Internet Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201610892400.7A priority Critical patent/CN106326498A/zh
Publication of CN106326498A publication Critical patent/CN106326498A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的主要目的在于提供一种作弊视频识别方法及装置,以解决现有技术中作弊视频影响正常视频展示的问题。该方法包括,包括:从视频网站中获取视频的信息以及视频的日志数据;根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定视频是否为作弊视频,初始指标项中定义了作弊视频的判断指标;使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;使用决策树模型识别视频是否是作弊视频,该方法规避了作弊视频对正常视频展示的影响,使得正常视频可以获得合理的展示机会。

Description

一种作弊视频识别方法及装置
技术领域
本发明涉及视频搜索引擎技术领域,尤其涉及一种作弊视频识别方法及装置。
背景技术
如今,视频作为重要的在线流媒体产品,在人们的日常生活娱乐中占据了重要的位置。鼓励用户制作视频,上传视频,并得到露出也是视频网站的基本原则。各个视频网站都会在搜索结果或者推荐***中展示视频结果。其背后的算法通常是利用了视频标题、描述以及视频的播放量,上传用户信息等数据。正常的视频通常具有合理的标题、描述、视频的播放量,以及用户的交互行为,然而,目前互联网视频网站存在大量的作弊视频,
作弊视频会对正常视频产生不公平的影响。在工业界和学术界,人们并并未对作弊视频的进行严格定义,但常见的作弊视频有如下特点:
视频标题有大量词语堆砌,例如“天天向上快乐大本营何炅谢娜视频”,“马云马化腾王健林李彦宏雷军陈安之创业秘籍”;视频内容与视频标题没有太大关联,或者夹带代理的推广信息。例如“天天向上快乐大本营何炅谢娜视频”的视频内容是关于创业的。作弊视频有大播放量,然而,非热门节目和人物的视频不会有高达百万的播放量。
作弊视频对正常业务的开展是及其不利的,作弊视频由于虚假的播放量和标题,通常能在排序算法中占尽优势,使得作弊视频可以排在视频结果的前面,便于在搜索和推荐中露出。从而导致非作弊视频没有曝光机会。
通过对作弊视频的动因进行了初步的分析如下:
推广个人信息,作弊视频中通常夹杂QQ,微信和手机号等,视频上传者期望用户看到视频后,可以主动联系,并开展线下业务;营造利己的舆论氛围,例如创业类视频通常告诉用户,现在有大量的创业发财机会,并且有很多人已经成功了;试图获得他人的关注,例如视频标题包含大量热门词语,希望有更多被观看的机会。
利用传统算法的局限性,传统的搜索和排序算法会对视频和用户的多样性做一定的要求,即所出的结果应该包含较多的独立视频和用户。作弊视频和作弊用户通常会创建大量雷同的视频和用户,来博得优势,这对于非作弊视频,即正常视频来说,是不正当的竞争,并且严重影响了正常视频的展示。
发明内容
本发明的主要目的在于提供一种作弊视频识别方法及装置,以解决现有技术中作弊视频影响正常视频展示的问题。
一种作弊视频识别方法,包括:
从视频网站中获取视频的信息以及视频的日志数据;
根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,所述初始指标项中定义了作弊视频的判断指标;
使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
使用所述决策树模型识别视频是否是作弊视频。
优选的,所述初始指标项包括以下至少一项:
视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
优选的,所述使用所述决策树模型识别视频是否是作弊视频,包括:
根据训练得到的各指标项的目标量对所述视频的信息和/或所述视频的日志数据进行以下至少一种判断:
判断所述视频的名称是否满足视频名称对应的目标量,判断所述视频在预设时间段内的播放量是否满足所述目标量中的播放量,判断所述视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足所述目标量中用户交互行为的次数,判断所述视频中平均播放完成率是否满足所述目标量中的播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项所述目标量的视频确定为作弊视频。
优选的,所述根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,包括:
当所述视频在一个日志周期内未被播放的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
优选的,所述根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,包括:
当所述视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频户是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
一种作弊视频识别装置,包括:
获取模块,用于从视频网站中获取视频的信息以及视频的日志数据;
确定模块,用于根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,所述初始指标项中定义了作弊视频的判断指标;
训练模块,用于使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
识别模块,用于使用所述决策树模型识别视频是否是作弊视频。
7、根据权利要求6所述的装置,其特征在于,所述初始指标项包括以下至少一项:
视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
优选的,所述识别模块具体用于:
根据训练得到的各指标项的目标量对所述视频的信息和/或所述视频的日志数据进行以下至少一种判断:
判断所述视频的名称是否满足视频名称对应的目标量,判断所述视频在预设时间段内的播放量是否满足所述目标量中的播放量,判断所述视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足所述目标量中用户交互行为的次数,判断所述视频中平均播放完成率是否满足所述目标量中的播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项所述目标量的视频确定为作弊视频。
优选的,所述确定模块具体用于:
当所述视频在一个日志周期内未被播放的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
优选的,所述确定模块具体用于:
当所述视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频户是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
本发明有益效果如下:
本发明实例提供的方案通过初始指标项对获取到的视频的信息以及视频的日志数据进行训练,生成决策数据模型,再使用决策树模型对作弊视频进行识别,使得作弊视频能够被有效识别,规避了作弊视频对正常视频展示的影响,使得正常视频可以获得合理的展示机会。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例1中提供的作弊视频识别方法的流程图;
图2是本发明实施例2中使用决策树对作弊视频进行识别的路径示意图;
图3是本发明实施例3中提供的作弊视频识别装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种作弊视频识别方法,图1是该方法的流程图,如图1所示,该方法包括如下处理:
步骤101:从视频网站中获取视频的信息以及视频的日志数据;
其中,视频的信息可以包括视频的名称、视频的上传者,视频的文字描述信息等视频的属性信息,视频的日志数据,可以包括视频的上传日期,播放时间,播放次数等日志数据。
步骤102:根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定视频是否为作弊视频,初始指标项中定义了作弊视频的判断指标;
步骤103:使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
在该步骤中,生成的决策树模型即得到了各初始指标项对应的目标量,例如,本实施例中的初始指标项具体可以包括:视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率,基于此,各初始指标项对应的目标量即为判断视频是否为作弊视频的阈值。在具体实施时,可以选择上述初始指标项中的某一项,也可以同时选择多项。
步骤104:使用决策树模型识别视频是否是作弊视频。
在本实施例中,使用决策树模型识别视频是否是作弊视频具体可以包括:根据训练得到的各指标项的目标量对视频的信息和/或视频的日志数据进行以下至少一种判断:判断视频的名称是否满足视频名称对应的目标量,判断视频在预设时间段内的播放量是否满足目标量中的播放量,判断视频的标题中包含的热门关键词的个数是否满足目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足目标量中用户交互行为的次数,判断视频中平均播放完成率是否满足目标量中的播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项目标量的视频确定为作弊视频。
其中,根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定视频是否为作弊视频具体可以包括:当视频在一个日志周期内未被播放的情况下,通过以下初始指标项对视频进行识别,以确定视频是否为作弊视频:视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
可选的,根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定视频是否为作弊视频具体可以包括:
当视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对视频进行识别,以确定视频户是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
实施例2
本实施例将针对SEO技术设计作弊视频的识别算法,在本实施例中分别对有播放行为的作弊视频和无播放行为的作弊视频进行特征抽取,利用决策树算法对作弊视频进行判断。作弊视频通常期望在视频网站平台上获得更高的露出机会和关注度。例如,在搜索引擎中,作弊视频通常期望排在结果页的首页,甚至是前几位;在推荐***中,作弊视频也希望可以获得更多的推荐;作弊视频通常也期望被更多的用户收藏或转载,这样,在第三方平台上,作弊视频也有机会被更多视频用户查阅到。通过对SEO技术和视频的统计分析,得出作弊视频通常具有以下特点:作弊视频的标题通常包含多个热门词语,或者相关领域的热门词语。例如,热播电视剧、综艺以及财经领域的节目名称和名人名字,创业或者直销领域的节目名称和名人名字等。例如,欢乐喜剧人,太阳的后裔,郎眼财经,马云,陈安之,安利。作弊视频的播放量通常在较短时间内达到非正常的较高数值。作弊视频有专门的SEO工具来异常提高播放量,统计上可以发现,一个普通用户的视频在一天内的播放量通常不会超过10000,但是作弊视频的播放量可以在几个小时达到几十万甚至上百万。作弊视频几乎没有被用户顶踩或收藏等行为。在如此高的播放量前提下,视频的顶踩,收藏等用户交互行为是可以达到一定水平的。但是作弊视频通常没有这些行为。这说明,视频播放量虽然被异常提高了,但是并没有真正的用户来交互。作弊视频的用户名称具有一定的规律。由于SEO现在多采用软件自动化的方式,因此用户在上传视频前,不会手动设置用户名。只会简单的依靠软件按照一定的规律来生成用户名。常见的有:game_XXXXXX,QQYYYYYYYY,其中X代表字母或者数字,Y代表数字。综合以上对作弊视频的基本认识,本实施例可以得到以下基本特征:
视频标题所包含的热词数wordCount,基于此,需要一个基于频度统计的热词词表。对于重复出现的热词,需要重复计数。
视频的单日播放量firstDayVV,此处的单日指的是视频的发布日期,即视频上线的日期。
视频单日交互行为转化率interactRatio,需要根据可用的日志结果,用顶踩,引用,收藏等数值除以视频的单日播放量。根据所得值域的情况,可能需要一定的归一化。
视频的用户格式accountName,这里需要一个基于频度统计的常见作弊用户格式列表。
对于有播放行为的作弊视频,还可以采用视频的播放完成比作为进一步的考察特征在本实施例中,采用视频平均播放完成比(Average Playing Percentage,avgPP)刻画视频的平均播放完成程度。平均播放完成比越大,视频观看越完整,反之越不完整。平均播放完成比使用如下定义:
a v g P P = Σ i = 1 n watchingLength i n * v i d e o L e n g t h
其中,watchingLengthi,是视频的第i次观看时长,videoLength是当前视频的总时长,n是被播次数。
一般来说,一个普通视频的平均播放完成比avgPP不会是一个很低的值,除非每一次播放完成比都极低。根据统计,一般全量视频的平均播放完成比为40%左右,故如果一个视频的平均播放完成比很低,那么它极有可能是作弊视频。
综合以上,对于有播放行为的作弊视频,在本实施例中建议使用以下指标项来对视频网站中的作弊视频进行识别:
视频标题所包含的热词数wordCount,视频的单日播放量firstDayVV,视频单日交互行为转化率interactRatio,视频的用户格式accountName,以及视频的平均播放完成比avgPP。
其数据格式为:
vid|wordCount|firstDayVV|interactRatio|accountName|avgPP。
在本实施例中,上述数据字段的先后顺序无强制要求。
对于无播放行为的作弊视频(指上一个日志周期无播放行为,而非从上线之日起即无播放行为),由于获取不到更多可用数据,可以仅仅利用基本特征进行刻画,即:
视频标题所包含的热词数wordCount,视频的单日播放量firstDayVV,视频单日交互行为转化率interactRatio以及视频的用户格式accountName。
其数据格式为:
vid|wordCount|firstDayVV|interactRatio|accountName。
同样的,在本实施例中,上述数据字段的先后顺序无强制要求。
一般来讲,根据搜索、推荐等业务***的算法设计的不同,作弊视频不会一直没有播放行为。当前很多业务算法都鼓励用户上传,更多注重算法的时效性,作弊视频在发布的第一天由于时效性强,会有播放行为,但是随着时间的推移,作弊视频可能不会有播放行为了。如果业务算法更加注重视频的经典程度(通常是播放量,交互数据等),作弊视频无播放行为也是很普遍的。
识别算法
当获知到作弊视频的所有特征数据时,可以根据小样本的数据来训练模型,也就是计算得到全样本识别中的各种比较阈值,同时该模型还要易于在工程中实现,在本实施例中可以采用决策树模型来识别作弊视频。
本实施例使用经典的决策树(Decision Tree)算法来完成视频搜索引擎虚假搜索行为的识别。首先利用训练集来训练决策树模型。训练集可以是通过人工标注的给定每一个搜索词是否是虚假搜索行为的初始数据集合。人工标注以明确认定的少量搜索词为基础,然后利用决策树模型来预测已知的搜索行为,进而判断和优化模型的准确性。决策树是一个类似于流程图的树结构,其中每个内部节点表示只在一个属性上的测试,每个分枝代表一个测试输出,而每个树节点代表类或者类分布,树的最顶层节点是根节点。决策树算法本身的特点使其适合进行属性数(特征数)较少情况下的高质量分类。
决策树算法的核心问题是选取在树的每个结点即要测试的属性,争取能够选择出最有助于分类实例的属性。为了解决这个问题,ID3算法引入了信息增益(informationgain)的概念,并使用信息增益的多少来决定决策树各层次上的不同结点即用于分类的重要属性。为了精确地定义信息增益,ID3算法(即实现决策树算法的一种做法,本实施例仅以该算法为例,具体并不限定这一种算法)使用信息论中称为熵(entropy)的概念,它刻画了任意样例集的纯度(purity)。给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个布尔型分类的熵为:
Entropy(S)=-P+log2P+-P-log2P-
上述公式中,P+代表正样例,P-代表反样例,(在有关熵的所有计算中定义0log0为0)。利用熵,ID3定义了信息增益。简单的说,一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低(或者说,样本按照某属性划分时造成熵减少的期望)。更精确地讲,一个属性A相对样例集合S的信息增益被定义为:
G a i n ( S , A ) = E n t r o p y ( S ) - Σ v ∈ V ( A ) S v S E n t r o p y ( S v ) ;
其中,V(A)是属性A的值域;S是样本集合;Sv是S中在属性A上值等于v的样本集合。
ID3算法流程如下:输入:样本集合S,属性集合A输出:ID3决策树。
1、若所有种类的属性都处理完毕,返回;否则执行2;
2、计算出信息增益Gain(S,A)最大属性a,把该属性作为一个节点;如果仅凭属性a就可以对样本分类,则返回;否则执行3;
3、对属性a的每个可能的取值v,执行以下操作:
4、将所有属性a的值是v的样本作为S的一个子集Sv
5、生成属性集合AT=A-{a};
6、以样本集合Sv和属性集合AT为输入,递归执行ID3算法;
通过提取的特征数据,训练集合的标注结果和ID3决策树算法,就可以得到虚假搜索行为的决策树初始模型。
对模型的优化可以使用剪枝(pruning)策略实现,主要有两种裁剪策略:
前置裁剪,在构建决策树的过程时,提前停止。那么,会将切分节点的条件设置的很苛刻,导致决策树很短小,结果就是决策树无法达到最优,
后置裁剪,决策树构建好后,然后才开始裁剪,该剪裁采用两种方法:
用单一叶节点代替整个子树,叶节点的分类采用子树中最主要的分类;
将一个字树完全替代另外一颗子树。
在本实施例中,决策树可以根据视频的特征来判断其是否是经过作弊的。其基本流程如下:
获取视频的数据(即视频的信息,例如,视频的信息可以包括视频的名称、视频的上传者,视频的文字描述信息等),及视频的日志数据(例如视频的上传日期,播放时间,播放次数等等);
从视频的数据以及视频的日志数据中随机抽取一定量的视频样本,进行是否为作弊视频的人工标注(即,可以通过人工根据视频的各项指标数据来判断是否是作弊视频,然后标注判断出的作弊视频);
根据标注后的视频样本数据,利用ID3算法进行作弊视频决策树的训练,得到决策树模型;
根据生成的决策树模型对视频网站中待检测的视频进行识别,判断其是否是作弊视频。
首先准备一份作弊视频热词词表。然后根据后台播放日志获取这些视频的播放数据,同时根据视频静态信息获取视频的播放量,顶踩,收藏,引用,用户名等数据。
本实施例使用的热词词表如下:
'马云','马化腾','李彦宏','创业','成功','陈安之','励志','王健林','刘强东','雷军','乔布斯','罗永浩','张朝阳','周鸿祎','比尔盖茨','赵本山','宋小宝','白百何','羽泉','黄晓明','郭德纲','岳云鹏','成龙','刘德华','刘嘉玲','梁朝伟','郭富城','曾仕强','梁凯恩','俞凌雄','翟鸿燊','安利','无限极','雅芳','天狮','玫琳凯','隆力奇','赵丽颖','鹿晗','刘亦菲','李易峰','刘诗诗','杜云生','徐鹤宁','李嘉诚','牛根生','杨元庆','李开复','任正非','唐骏','丁磊','史玉柱','俞敏洪','柳传志','云商','如新','互联网','屌丝','刘一秒','中国梦','机遇','商业','营销','今日头条','浙商','杨涛鸣','投资','行销','命运','天天向上','欢乐喜剧人','成功学','超人','安东尼罗宾','郑爽','吴奇隆','趋势','纪中展','国珍','邓超','霍建华','杨幂','财经郎眼','赵薇','王牌对王牌','英雄联盟','春季赛','我是歌手','快乐大本营'。
有了热词词表,就可以判断一个视频的热词堆砌程度。
生成决策规则:
根据获得的视频数据,可以建立视频的各种特征表格。例如,对于视频,有如下表1中所示的数据片段:
表1
其中,accountName字段为1,表明其用户名格式为game_XXXXXX。
对随机视频样本进行标注,并利用决策树算法生成决策规则具体可以如图2所示,图2中所示的各比较阈值均为通过决策树训练模型得到。可以看到,作弊视频的识别有4个路径:
accountName=1;
accountName<>1且wordCount>4;
accountName<>1且wordCount>2且avgPP<0.5;
accountName<>1且wordCount<2且avgPP<0.01。
根据上述学习得出的决策树和决策规则,通过每日离线计算,生成作弊视频的数据,并在视频搜索引擎采用降权处理,使得这些视频在排序上处于极大劣势。
实施例3
本实施例提供了一种作弊视频识别装置,图3是该装置的结构框图,如图3所示,该装置包括如下组成部分:
获取模块31,用于从视频网站中获取视频的信息以及视频的日志数据;
确定模块32,用于根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定视频是否为作弊视频,初始指标项中定义了作弊视频的判断指标;
训练模块33,用于使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
识别模块34,用于使用决策树模型识别视频是否是作弊视频。
可选的,在本实施例中,初始指标项具体可以包括:视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率。在具体实施时,可以选择上述初始指标项中的某一项,也可以同时选择多项。
可选的,上述识别模块34具体用于:根据训练得到的各指标项的目标量对视频的信息和/或视频的日志数据进行以下至少一种判断:判断视频的名称是否满足视频名称对应的目标量,判断视频在预设时间段内的播放量是否满足目标量中的播放量,判断视频的标题中包含的热门关键词的个数是否满足目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足目标量中用户交互行为的次数,判断视频中平均播放完成率是否满足目标量中的播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项目标量的视频确定为作弊视频。
其中,上述确定模块32具体用于:当视频在一个日志周期内未被播放的情况下,通过以下初始指标项对视频进行识别,以确定视频是否为作弊视频:视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
可选的,上述确定模块具体可以用于:当视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对视频进行识别,以确定视频户是否为作弊视频:视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种作弊视频识别方法,其特征在于,包括:
从视频网站中获取视频的信息以及视频的日志数据;
根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,所述初始指标项中定义了作弊视频的判断指标;
使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
使用所述决策树模型识别视频是否是作弊视频。
2.根据权利要求1所述的方法,其特征在于,所述初始指标项包括以下至少一项:
视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
3.根据权利要求2所述的方法,其特征在于,所述使用所述决策树模型识别视频是否是作弊视频,包括:
根据训练得到的各指标项的目标量对所述视频的信息和/或所述视频的日志数据进行以下至少一种判断:
判断所述视频的名称是否满足视频名称对应的目标量,判断所述视频在预设时间段内的播放量是否满足所述目标量中的播放量,判断所述视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足所述目标量中用户交互行为的次数,判断所述视频中平均播放完成率是否满足所述目标量中的播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项所述目标量的视频确定为作弊视频。
4.根据权利要求1所述的方法,其特征在于,所述根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,包括:
当所述视频在一个日志周期内未被播放的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
5.根据权利要求1所述的方法,其特征在于,所述根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,包括:
当所述视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频户是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
6.一种作弊视频识别装置,其特征在于,包括:
获取模块,用于从视频网站中获取视频的信息以及视频的日志数据;
确定模块,用于根据初始指标项对获取到的视频的信息以及视频的日志数据中的各视频进行识别,确定所述视频是否为作弊视频,所述初始指标项中定义了作弊视频的判断指标;
训练模块,用于使用决策树算法对进行识别后的样本数据进行训练,生成决策树模型;
识别模块,用于使用所述决策树模型识别视频是否是作弊视频。
7.根据权利要求6所述的装置,其特征在于,所述初始指标项包括以下至少一项:
视频标题名称的格式,视频在预设时间段内的播放量,在预设时间段内的视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频的平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
8.根据权利要求7所述的装置,其特征在于,所述识别模块具体用于:
根据训练得到的各指标项的目标量对所述视频的信息和/或所述视频的日志数据进行以下至少一种判断:
判断所述视频的名称是否满足视频名称对应的目标量,判断所述视频在预设时间段内的播放量是否满足所述目标量中的播放量,判断所述视频的标题中包含的热门关键词的个数是否满足所述目标量中的热门关键词个数,判断视频对应用户交互行为的次数是否满足所述目标量中用户交互行为的次数,判断所述视频中平均播放完成率是否满足所述目标量中的播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率;将至少满足一项所述目标量的视频确定为作弊视频。
9.根据权利要求1所述的装置,其特征在于,所述确定模块具体用于:
当所述视频在一个日志周期内未被播放的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数以及视频标题中包含的热门关键词的个数。
10.根据权利要求6所述的装置,其特征在于,所述确定模块具体用于:
当所述视频在一个日志周期内被播放至少一次的情况下,通过以下初始指标项对所述视频进行识别,以确定所述视频户是否为作弊视频:
视频标题名称的格式,视频在预设时间段内的播放量,视频对应的用户交互行为的次数,视频标题中包含的热门关键词的个数以及视频平均播放完成率,所述平均播放完成率为被播放的视频的观看完成部分占该视频的比率。
CN201610892400.7A 2016-10-13 2016-10-13 一种作弊视频识别方法及装置 Pending CN106326498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610892400.7A CN106326498A (zh) 2016-10-13 2016-10-13 一种作弊视频识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610892400.7A CN106326498A (zh) 2016-10-13 2016-10-13 一种作弊视频识别方法及装置

Publications (1)

Publication Number Publication Date
CN106326498A true CN106326498A (zh) 2017-01-11

Family

ID=57820301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610892400.7A Pending CN106326498A (zh) 2016-10-13 2016-10-13 一种作弊视频识别方法及装置

Country Status (1)

Country Link
CN (1) CN106326498A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764021A (zh) * 2018-04-04 2018-11-06 北京奇艺世纪科技有限公司 一种作弊视频识别方法和装置
CN109165691A (zh) * 2018-09-05 2019-01-08 北京奇艺世纪科技有限公司 用于识别作弊用户的模型的训练方法、装置及电子设备
CN109840445A (zh) * 2017-11-24 2019-06-04 优酷网络技术(北京)有限公司 一种作弊视频的识别方法及***
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN110290400A (zh) * 2019-07-29 2019-09-27 北京奇艺世纪科技有限公司 可疑刷量视频的识别方法、真实播放量预估方法及装置
CN110381375A (zh) * 2018-04-13 2019-10-25 武汉斗鱼网络科技有限公司 一种确定盗刷数据的方法、客户端及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2563014A2 (en) * 2007-02-21 2013-02-27 Nds Limited Method for content presentation
CN103064850A (zh) * 2011-10-20 2013-04-24 腾讯科技(深圳)有限公司 挖掘作弊数据的方法和***
CN105183897A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种视频搜索排序的方法和***
CN105574199A (zh) * 2015-12-28 2016-05-11 合一网络技术(北京)有限公司 搜索引擎的虚假搜索行为的识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2563014A2 (en) * 2007-02-21 2013-02-27 Nds Limited Method for content presentation
CN103064850A (zh) * 2011-10-20 2013-04-24 腾讯科技(深圳)有限公司 挖掘作弊数据的方法和***
CN105183897A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种视频搜索排序的方法和***
CN105574199A (zh) * 2015-12-28 2016-05-11 合一网络技术(北京)有限公司 搜索引擎的虚假搜索行为的识别方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147472A (zh) * 2017-07-14 2019-08-20 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN110147472B (zh) * 2017-07-14 2021-10-15 北京搜狗科技发展有限公司 作弊站点的检测方法、装置以及用于作弊站点的检测装置
CN109840445A (zh) * 2017-11-24 2019-06-04 优酷网络技术(北京)有限公司 一种作弊视频的识别方法及***
CN109840445B (zh) * 2017-11-24 2021-10-01 阿里巴巴(中国)有限公司 一种作弊视频的识别方法及***
CN108764021A (zh) * 2018-04-04 2018-11-06 北京奇艺世纪科技有限公司 一种作弊视频识别方法和装置
CN108764021B (zh) * 2018-04-04 2021-03-26 北京奇艺世纪科技有限公司 一种作弊视频识别方法和装置
CN110381375A (zh) * 2018-04-13 2019-10-25 武汉斗鱼网络科技有限公司 一种确定盗刷数据的方法、客户端及服务器
CN109165691A (zh) * 2018-09-05 2019-01-08 北京奇艺世纪科技有限公司 用于识别作弊用户的模型的训练方法、装置及电子设备
CN109165691B (zh) * 2018-09-05 2022-04-22 北京奇艺世纪科技有限公司 用于识别作弊用户的模型的训练方法、装置及电子设备
CN110290400A (zh) * 2019-07-29 2019-09-27 北京奇艺世纪科技有限公司 可疑刷量视频的识别方法、真实播放量预估方法及装置
CN110290400B (zh) * 2019-07-29 2022-06-03 北京奇艺世纪科技有限公司 可疑刷量视频的识别方法、真实播放量预估方法及装置

Similar Documents

Publication Publication Date Title
CN106326498A (zh) 一种作弊视频识别方法及装置
Xue et al. Detecting fake news by exploring the consistency of multimodal data
CN106326497A (zh) 一种作弊视频用户识别方法及装置
CN104317959B (zh) 基于社交平台的数据挖掘方法及装置
Sharifi et al. Summarizing microblogs automatically
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
Firan et al. Bringing order to your photos: event-driven classification of flickr images based on social knowledge
Abel et al. Twitcident: fighting fire with information from social web streams
US11514242B2 (en) Method for automatically summarizing internet web page and text information
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和***
CN104994424B (zh) 一种构建音视频标准数据集的方法和装置
Saeed et al. Crowdsourced fact-checking at Twitter: How does the crowd compare with experts?
CN104516986A (zh) 一种语句识别方法及装置
CN101609459A (zh) 一种情感特征词提取***
Tran et al. Leveraging learning to rank in an optimization framework for timeline summarization
CN103279504B (zh) 一种基于歧义消解的搜索方法及装置
Theisen et al. Automatic discovery of political meme genres with diverse appearances
CN106357416A (zh) 一种群信息推荐方法、装置及终端
CN111861550B (zh) 一种基于ott设备的家庭画像构建方法及***
CN105574199B (zh) 搜索引擎的虚假搜索行为的识别方法和装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN101894129B (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法
CN109033286B (zh) 数据统计方法和装置
CN103309857A (zh) 一种分类语料确定方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170111

RJ01 Rejection of invention patent application after publication