CN109840445A

CN109840445A - 一种作弊视频的识别方法及***

Info

Publication number: CN109840445A
Application number: CN201711188045.6A
Authority: CN
Inventors: 张深源
Original assignee: Youku Network Technology Beijing Co Ltd
Current assignee: Youku Culture Technology Beijing Co ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-06-04
Anticipated expiration: 2037-11-24
Also published as: CN109840445B

Abstract

本申请实施方式公开了一种作弊视频的识别方法及***，其中，所述方法包括：获取目标视频的标题信息，并提取所述标题信息中的特征词汇；根据所述特征词汇所属的类别，将所述特征词汇划分为至少一个特征词汇集；其中，同一个特征词汇集中的特征词汇所属的类别相同；获取与当前的特征词汇集相关联的识别阈值，并基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集；若所述当前的特征词汇集属于异常词汇集，判定所述目标视频为作弊视频。本申请提供的技术方案，能够提高作弊视频的识别准确度。

Description

一种作弊视频的识别方法及***

技术领域

本申请涉及互联网技术领域，特别涉及一种作弊视频的识别方法及***。

背景技术

随着互联网技术的不断发展，涌现出越来越多的视频播放平台。目前，视频播放平台通常会统计各个视频的点击量。这样，用户可以根据视频的点击量来判断视频内容的受欢迎程度，从而有选择地观看视频。

目前，有些作弊视频的上传者为了提高作弊视频的点击量，通常会为作弊视频配置虚假的视频标题。这些虚假的视频标题与作弊视频的实际内容可能并不相关，而是纯粹堆砌当前的一些热搜词汇，这样，当用户搜索某个比较热门的视频，该虚假的视频标题便会出现在搜索结果中，从而骗取用户的点击量。例如，某个虚假的视频标题为“金星秀快乐男声中国好声音跑男最新一集”，那么当用户在搜索“金星秀”或者“中国好声音”时，该虚假的视频标题均会出现在搜索结果中。

为了从众多的视频中识别出作弊视频，当前可以对同一个视频标题中出现的热搜词汇进行限制。例如，可以将同一个视频标题中出现的热搜词汇的数量上限设置为3个，这样，一旦某个视频的标题中出现了4个或者4个以上的热搜词汇，那么便可以判定该视频为作弊视频。然而，现有的这种作弊视频的识别方法会导致许多正常的视频被误判为作弊视频，例如，某个视频的标题为“邓超郑恺包贝儿李晨快乐大本营集锦”。该视频标题中出现了5个热搜词汇，如果按照现有的方法，会将该视频判定为作弊视频。但实际上该视频标题中的几个明星均参与了同一个综艺节目，因此这几个明星的名字同时出现并不是单纯地堆砌热搜词汇，而是正常的罗列，因此该视频并非是作弊视频。由上可见，现有技术中的作弊视频的识别方法无法准确地识别作弊视频。

发明内容

本申请实施方式的目的是提供一种作弊视频的识别方法及***，能够提高作弊视频的识别准确度。

为实现上述目的，本申请实施方式提供一种作弊视频的识别方法，所述方法包括：获取目标视频的标题信息，并提取所述标题信息中的特征词汇；根据所述特征词汇所属的类别，将所述特征词汇划分为至少一个特征词汇集；其中，同一个特征词汇集中的特征词汇所属的类别相同；获取与当前的特征词汇集相关联的识别阈值，并基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集；若所述当前的特征词汇集属于异常词汇集，判定所述目标视频为作弊视频。

为实现上述目的，本申请实施方式还提供一种作弊视频的识别***，所述***包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：获取目标视频的标题信息，并提取所述标题信息中的特征词汇；根据所述特征词汇所属的类别，将所述特征词汇划分为至少一个特征词汇集；其中，同一个特征词汇集中的特征词汇所属的类别相同；获取与当前的特征词汇集相关联的识别阈值，并基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集；若所述当前的特征词汇集属于异常词汇集，判定所述目标视频为作弊视频。

由上可见，本申请提供的技术方案，在对目标视频的标题信息进行识别时，首先可以提取所述标题信息中的特征词汇。在实际应用中，所述特征词汇便可以是当前的热搜词汇。在提取出特征词汇之后，可以对提取出的特征词汇进行分类，从而得到至少一个特征词汇集。具体地，不同类别的特征词汇集可以关联不同的识别阈值，该识别阈值可以作为一个类别的特征词汇集中包含的特征词汇的上限数量。如果特征词汇集中包含的特征词汇的数量超过关联的识别阈值，则认为该特征词汇集为异常词汇集，这样，所述目标视频便可以被判定为作弊视频。由上可见，针对不同的特征词汇集的判定尺度也可以不同。例如，针对娱乐明星类的特征词汇集而言，其对应的识别阈值可以稍大一些；而针对节目名称类的特征词汇而言，其对应的识别阈值可以稍小一些。具体地，所述识别阈值的取值可以根据正常视频的视频标题中包含的特征词汇的数量进行统计得到。由此可见，本申请提供的技术方案，针对不同类别的热搜词汇，可以采用不同的判定标准进行判定，避免了由于采用统一的判定标准进行判定时导致的误判情况，从而提高了作弊视频的识别准确度。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中作弊视频的识别方法步骤图；

图2为本申请实施方式中作弊视频的识别方法流程图；

图3为本申请实施方式中作弊视频的识别***的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种作弊视频的识别方法，所述方法可以应用于视频播放网站的服务器中。请参阅图1和图2，所述方法可以包括以下步骤。

S1：获取目标视频的标题信息，并提取所述标题信息中的特征词汇。

在本实施方式中，所述目标视频可以是待识别的视频，所述目标视频可以具备标题信息，所述标题信息可以是视频上传者为所述目标视频设置的文字信息。例如，所述目标视频的标题信息可以为“金星秀快乐男声中国好声音跑男最新一集”。

在本实施方式中，在判断所述目标视频是否为作弊视频时，可以对该目标视频的标题信息进行识别。在服务器中，上传的视频的数据可以与该视频的信息进行关联存储。所述视频的信息可以包括视频的时长、名称、类型以及上传者用户名称等一系列信息。这样，获取所述目标视频的标题信息时，可以从所述目标视频关联的视频信息中读取出表征视频名称的字符串。

在本实施方式中，在获取了所述目标视频的标题信息后，可以针对标题信息的内容进行识别。具体地，可以提取所述标题信息中的特征词汇。所述特征词汇可以是在当前的视频播放网站中搜索次数较多的词汇。在实际应用中，视频播放网站可以统计指定时间段内各个词汇的搜索次数，然后可以按照搜索次数从多到少的顺序，将搜索的词汇进行排序。最终，便可以得到排名靠前的多个词汇，这些排名靠前的词汇便可以作为该视频播放网站中的特征词汇。例如，视频播放网站可以统计出近一周排名前100的热搜词汇，这些热搜词汇便可以作为视频播放网站的特征词汇。

在本实施方式中，在提取所述标题信息中的特征词汇时，可以对所述标题信息进行分词，从而得到所述标题信息中包含的多个词汇。在对所述标题信息进行分词时，可以采用预先设置的词汇库对所述标题信息中的词汇进行识别，从而可以识别得到所述标题信息中的多个词汇。在实际应用中，可以采用各种分词器对标题信息进行分词。所述分词器例如可以是friso分词器、Jcseg分词器、MMSEG4J分词器等。进一步地，为了提高对视频的标题信息进行分词的准确性，可以基于视频播放网站中常用的词汇来构建分词器的词库，从而使得分词器输出的结果能够更加符合视频播放网站中词汇的语言习惯。

在本实施方式中，在进行分词并得到多个词汇之后，可以将所述多个词汇中处于热搜词汇集中的词汇作为所述标题信息的特征词汇。其中，所述热搜词汇集中的热搜词汇可以根据在指定时限内对应的搜索次数确定。例如，视频播放网站可以统计出近一周排名前100的热搜词汇，并将这些热搜词汇组成热搜词汇集。那么在根据目标视频的标题信息分词得到多个词汇后，可以将处于该热搜词汇集中的词汇作为特征词汇提取出来。在本实施方式中，提取特征词汇的目的在于，作弊视频很可能会在标题信息中堆砌当前的多个热搜词汇，从而达到骗取用户点击量的目的。因此后续可以对提取出的特征词汇进行分析，从而判断目标视频是否是作弊视频。

S3：根据所述特征词汇所属的类别，将所述特征词汇划分为至少一个特征词汇集；其中，同一个特征词汇集中的特征词汇所属的类别相同。

在本实施方式中，可以按照特征词汇所属的类别，对特征词汇进行分类。特征词汇的类别可以根据用户的搜索意图进行分类。具体地，所述特征词汇的类别可以包括节目名称类、人物类、自媒体类以及敏感词类等多种类别。其中，节目名称类可以是综艺节目的名称或者名称的缩写。例如节目名称类中可以包括“奔跑吧兄弟”、“金星秀”、“中国好声音”等特征词汇。人物类可以是公众人物的姓名或者姓名的别称。例如，人物类中可以包括“李晨”、“马云”、“巴菲特”等特征词汇。自媒体类可以是视频播放网站中PGC(ProfessionalGenerated Content，专业生产内容)的名称或者上传者的名称。例如，自媒体中可以包括“英雄联盟”、“天佑哥”、“月夜枫”等特征词汇。敏感词类可以是具备不良引导意义的特征词汇。例如，敏感词类中可以包括“强吻”、“大尺度”、“激情戏”等特征词汇。

需要说明的是，针对上述的特征词汇的类别，在实际应用场景中，可以针对其中的某个类别进行更加细化的划分，从而得到一个类别中的多个子类别。例如，对于人物类而言，其中可以包括娱乐类人物、金融类人物、政治类人物等多个子类别。

在本实施方式中，在从目标视频的标题信息中筛选出特征词汇之后，可以根据特征词汇所属的类别，对特征词汇进行归类。属于同一类的特征词汇可以划分至一个特征词汇集中。这样，便可以得到至少一个特征词汇集，处于同一个特征词汇集中的特征词汇所属的类别相同。例如，针对“跑男金星秀中国好声音包最新一集看包贝尔李晨畅聊理想”这个标题信息，可以划分得到“跑男金星秀中国好声音包”和“包贝尔李晨”这两个特征词汇集。

S5：获取与当前的特征词汇集相关联的识别阈值，并基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集。

通常而言，针对不同类别的特征词汇，正常视频的标题信息中包含的特征词汇的数量也可能各不相同。例如，对于节目名称类的特征词汇，出现在同一个标题信息中的数量一般不会超过三个；而对于娱乐类人物的特征词汇，出现在同一个标题信息中的数量一般不会超过五个。因此，为了避免将正常的视频误判为作弊视频，在本实施方式中可以针对不同的类别，制定不同的识别策略。

在本实施方式中，针对不同类别的特征词汇集，可以预先确定用于判断特征词汇集中包含的特征词汇的数量是否正常的识别阈值。该识别阈值可以作为特征词汇集中包含的特征词汇的数量上限。如果特征词汇集中包含的特征词汇的数量大于该识别阈值，则表明对应的标题信息中存在堆砌热搜词汇的嫌弃。具体地，由于不同的特征词汇集会关联不同的识别阈值，那么在对当前的特征词汇集进行判定时，可以先获取与当前的特征词汇集相关联的识别阈值。各个识别阈值可以与对应的类别在视频播放网站的服务器中进行关联存储。其中，特征词汇的类别可以作为key(键)，与类别相关联的识别阈值则可以作为value(值)，这样便可以通过key-value(键值对)的方式进行存储。在确定了当前的特征词汇集对应的类别后，便可以读取到关联的识别阈值。

在本实施方式中，所述识别阈值可以是基于正常视频的标题信息进行统计分析得到的。具体地，可以预先获取非作弊视频的预设数量的非作弊标题信息，并统计同一个非作弊标题信息中包含指定类别的特征词汇的最大数量。例如，可以获取5000条非作弊视频的标题信息，然后针对每条标题信息，可以统计其中包含指定类别的特征词汇的数量。例如，可以统计这5000条标题信息中，各自包含的节目名称类的特征词汇的数量。最终，通过对比统计的各个数量，从而可以得到其中的最大数量。该最大数量便可以作为非作弊视频中包含指定类别的特征词汇的数量上限，从而可以将统计出的所述最大数量作为与所述指定类别的特征词汇集相关联的识别阈值。例如，针对大量的正常标题信息分析后发现，正常视频的标题信息中一般最多只会提及2个节目名称，那么针对节目名称类的识别阈值便可以设置为2。

在本实施方方式中，在获取了与当前的特征词汇集相关联的识别阈值后，便可以基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集。具体地，若所述当前的特征词汇集中包含的特征词汇的数量大于与所述当前的特征词汇集相关联的识别阈值，则可以判定所述当前的特征词汇集属于异常词汇集。例如，与节目名称类的特征词汇集相关联的识别阈值可以为2，那么如果节目名称类的特征词汇集中包含的特征词汇的数量大于2，则可以判定该特征词汇集为异常特征词汇集。反之，若所述当前的特征词汇集中包含的特征词汇的数量小于或者等于与所述当前的特征词汇集相关联的识别阈值，则可以判定所述当前的特征词汇集不属于异常词汇集。

S7：若所述当前的特征词汇集属于异常词汇集，判定所述目标视频为作弊视频。

在本实施方式中，若所述当前的特征词汇集属于异常词汇集，则表明当前的特征词汇集中的特征词汇存在堆砌热搜词汇的嫌疑。目标视频的标题信息可以对应多个特征词汇集，若其中存在一个异常词汇集，那么便可以判定该目标视频为作弊视频。例如，针对“跑男金星秀中国好声音包最新一集看包贝尔李晨畅聊理想”这个标题信息，尽管其中“包贝尔李晨”这个特征词汇集属于正常词汇集，但是“跑男金星秀中国好声音包”却属于异常词汇集，那么便可以判定该标题信息对应的视频为作弊视频。

在一个实施方式中，若划分得到的特征词汇集均属于正常词汇集，那么可以进一步综合判断目标视频是否为作弊视频。具体地，可以统计由目标视频的标题信息划分得到的特征词汇集的总数量。例如，对于“跑男最新一集看包贝尔李晨畅聊理想”这个标题信息，包含两个特征词汇集，因此该标题信息对应的特征词汇集的总数量为2。若统计的所述总数量大于指定数量阈值，则可以判定所述目标视频为作弊视频。所述指定数量阈值可以用于限定在同一个标题信息中同时出现的不同类别的特征词汇集的数量上限。在某些情况下，标题信息中的任一特征词汇集中包含的特征词汇均没有超出关联的识别阈值，但是标题信息中却包含很多不同类别的特征词汇集，在这种情况下，该标题信息也应当判定为作弊标题信息。例如，对于“跑男最新一集看包贝尔李晨畅聊理想英雄联盟新的赛季马云巴菲特传授发财之道”这样的标题，共包含四个特征词汇集(人物类可以划分为娱乐类人物和金融类人物两类)，每个特征词汇集中包含的特征词汇数量均正常，但由于特征词汇集的总数量过多，因此可以判定该标题信息对应的视频为作弊视频。

在本实施方式中，所述指定数量阈值也可以是通过对非作弊视频的标题信息统计分析得到的。具体地，可以获取非作弊视频的预设数量的非作弊标题信息，并统计同一个非作弊标题信息中包含的特征词汇类别的最大数量。然后可以将统计出的所述最大数量作为所述指定数量阈值。

在一个实施方式中，可以针对其中的某个类别进行更加细化的划分，从而得到一个类别中的多个子类别。这样，所述当前的特征词汇集中的特征词汇便可以被划分至多个子类别中。例如，对于人物类而言，其中可以包括娱乐类人物、金融类人物、政治类人物等多个子类别。那么在获取与当前的特征词汇集相关联的识别阈值时，可以获取与当前的特征词汇集中的子类别分别关联的识别阈值。后续在判断异常词汇集时，可以基于与所述子类别相关联的识别阈值，判断所述子类别是否属于异常子类别。具体地，判断子类别是否属于异常子类别的方式与上述实施方式中描述的判断异常词汇集的方式类似，这里便不再阐述。若所述当前的特征词汇集中存在至少一个异常子类别，则可以判定所述当前的特征词汇集属于异常词汇集。

在一个实施方式中，若所述当前的特征词汇集中的子类别均为正常子类别，同样可以从子类别的总数量来进一步判断当前的特征词汇集是否为异常特征词汇集。具体地，可以统计所述当前的特征词汇集中包含的子类别的总数量，若统计的所述子类别的总数量大于指定类别阈值，则可以判定所述当前的特征词汇集属于异常词汇集。所述指定类别阈值同样可以是基于非作弊视频的标题信息统计分析得到的。例如，在当前的特征词汇集中，如果既包含了娱乐类人物的子集，又包含了金融类人物的子集，同时还包含了政治类人物的子集，那么便可以判定该当前的特征词汇集为异常词汇集。

在一个实施方式中，若所述当前的特征词汇集的类别为自媒体类别，那么与自媒体类别相关联的识别阈值可以通过对重点PGC用户上传的视频对应的标题信息进行统计分析得到。具体地，可以获取由指定用户群体中的用户上传的多个非作弊视频，并提取所述多个非作弊视频各自的标题信息。其中，所述指定用户群体便可以是上述的重点PGC用户，所述重点PGC用户可以是视频上传量达到指定数量的PGC用户，也可以是在自媒体类别中经过视频播放网站认证的PGC用户。这些重点PGC用户上传的视频通常是非作弊视频，此时可以通过对他们上传的视频的标题信息进行统计分析，从而得到自媒体类别对应的识别阈值。具体地，与上述的实施方式类似，可以统计同一个非作弊标题信息中属于自媒体类别的特征词汇的最大数量，然后将统计出的所述最大数量作为与所述当前的特征词汇集相关联的识别阈值。

在一个实施方式中，可以针对敏感词类的特征词汇集进行进一步地判定。具体地，若划分得到的特征词汇集均属于正常词汇集，可以判断划分得到的特征词汇集中是否存在表征敏感词汇的第一特征词汇集。若存在所述第一特征词汇集，可以进一步判断除所述第一特征词汇集之外，划分得到的特征词汇集中是否存在表征节目名称的第二特征词汇集。若存在所述第二特征词汇集，则可以判定所述目标视频为作弊视频。这样处理的依据在于，在同一个标题信息中，如果仅出现词汇数量符合要求的敏感词类的特征词汇集，那么则不宜将该标题信息判定为作弊标题信息。因为可能视频展示的就是“强吻”、“大尺度”、“激情戏”等方面内容的，这类视频的标题信息并不存在违规操作。但是，如果将敏感词和节目名称同时编辑在标题信息中，则可能存在通过节目名称以及敏感词的组合，吸引用户点击的嫌疑。例如，某个标题信息为“春风十里不如你周冬雨张一山壁咚强吻激情大尺度”，那么这个标题信息中既包含节目名称，又包含敏感词，从而可以判定该标题信息对应的视频为作弊视频。

请参阅图3，本申请还提供一种作弊视频的识别***，所述***包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤。

在本实施方式中，所述当前的特征词汇集的类别为自媒体类别；相应地，所述计算机程序被所述处理器执行时，还实现以下步骤：

获取由指定用户群体中的用户上传的多个非作弊视频，并提取所述多个非作弊视频各自的标题信息；

统计同一个非作弊标题信息中属于自媒体类别的特征词汇的最大数量；

将统计出的所述最大数量作为与所述当前的特征词汇集相关联的识别阈值。

在本实施方式中，所述计算机程序被所述处理器执行时，还实现以下步骤：

若划分得到的特征词汇集均属于正常词汇集时，判断划分得到的特征词汇集中是否存在表征敏感词汇的第一特征词汇集；

若存在所述第一特征词汇集，判断除所述第一特征词汇集之外，划分得到的特征词汇集中是否存在表征节目名称的第二特征词汇集；

若存在所述第二特征词汇集，判定所述目标视频为作弊视频。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的作弊视频的识别***，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现作弊视频的识别***以外，完全可以通过将方法步骤进行逻辑编程来使得作弊视频的识别***以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种作弊视频的识别***可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对作弊视频的识别***的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种作弊视频的识别方法，其特征在于，所述方法包括：

获取目标视频的标题信息，并提取所述标题信息中的特征词汇；

根据所述特征词汇所属的类别，将所述特征词汇划分为至少一个特征词汇集；其中，同一个特征词汇集中的特征词汇所属的类别相同；

获取与当前的特征词汇集相关联的识别阈值，并基于所述识别阈值判断所述当前的特征词汇集是否属于异常词汇集；

若所述当前的特征词汇集属于异常词汇集，判定所述目标视频为作弊视频。

2.根据权利要求1所述的方法，其特征在于，提取所述标题信息中的特征词汇包括：

对所述标题信息进行分词，得到所述标题信息中包含的多个词汇；

将所述多个词汇中处于热搜词汇集中的词汇作为所述标题信息的特征词汇；其中，所述热搜词汇集中的热搜词汇根据在指定时限内对应的搜索次数确定。

3.根据权利要求1所述的方法，其特征在于，所述识别阈值按照以下方式确定：

获取非作弊视频的预设数量的非作弊标题信息，并统计同一个非作弊标题信息中包含指定类别的特征词汇的最大数量；

将统计出的所述最大数量作为与所述指定类别的特征词汇集相关联的识别阈值。

4.根据权利要求3所述的方法，其特征在于，判断所述当前的特征词汇集是否属于异常词汇集包括：

若所述当前的特征词汇集中包含的特征词汇的数量大于与所述当前的特征词汇集相关联的识别阈值，判定所述当前的特征词汇集属于异常词汇集；

若所述当前的特征词汇集中包含的特征词汇的数量小于或者等于与所述当前的特征词汇集相关联的识别阈值，判定所述当前的特征词汇集不属于异常词汇集。

5.根据权利要求1所述的方法，其特征在于，若划分得到的特征词汇集均属于正常词汇集时，所述方法还包括：

统计划分得到的特征词汇集的总数量，若统计的所述总数量大于指定数量阈值，判定所述目标视频为作弊视频；

其中，所述指定数量阈值按照以下方式确定：

获取非作弊视频的预设数量的非作弊标题信息，并统计同一个非作弊标题信息中包含的特征词汇类别的最大数量；

将统计出的所述最大数量作为所述指定数量阈值。

6.根据权利要求1所述的方法，其特征在于，所述当前的特征词汇集中的特征词汇还被划分至多个子类别中；相应地，获取与当前的特征词汇集相关联的识别阈值包括：

获取与当前的特征词汇集中的子类别分别关联的识别阈值。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于与所述子类别相关联的识别阈值，判断所述子类别是否属于异常子类别；

若所述当前的特征词汇集中存在至少一个异常子类别，判定所述当前的特征词汇集属于异常词汇集。

8.根据权利要求6所述的方法，其特征在于，若所述当前的特征词汇集中的子类别均为正常子类别，所述方法还包括：

统计所述当前的特征词汇集中包含的子类别的总数量，若统计的所述子类别的总数量大于指定类别阈值，判定所述当前的特征词汇集属于异常词汇集。

9.根据权利要求1所述的方法，其特征在于，若所述当前的特征词汇集的类别为自媒体类别，与所述当前的特征词汇集相关联的识别阈值按照以下方式确定：

10.根据权利要求1所述的方法，其特征在于，若划分得到的特征词汇集均属于正常词汇集时，所述方法还包括：

判断划分得到的特征词汇集中是否存在表征敏感词汇的第一特征词汇集；

11.一种作弊视频的识别***，其特征在于，所述***包括存储器和处理器，所述存储器中存储计算机程序，所述计算机程序被所述处理器执行时，实现以下步骤：

12.根据权利要求11所述的***，其特征在于，所述当前的特征词汇集的类别为自媒体类别；相应地，所述计算机程序被所述处理器执行时，还实现以下步骤：

13.根据权利要求11所述的***，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：