CN105721933A

CN105721933A - 广告视频信息库的创建方法、广告视频识别方法及装置

Info

Publication number: CN105721933A
Application number: CN201610173635.0A
Authority: CN
Inventors: 谭颖璐; 刘燃
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-06-29

Abstract

本发明适用于广告识别领域，提供了一种广告视频信息库的创建方法、广告视频识别方法及装置。所述方法包括：获取视频文件分片、视频文件分片所在的视频文件名以及视频头数据；读取并保留视频文件分片的关键帧对应的视频数据，以及读取视频文件分片的结束位置后的第一个关键帧；根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值；根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定；存储由Key值和value值组成的键值对。通过上述方法能够提高视频数据的处理速度。

Description

广告视频信息库的创建方法、广告视频识别方法及装置

技术领域

本发明实施例属于广告识别领域，尤其涉及一种广告视频信息库的创建方法、广告视频识别方法及装置。

背景技术

用户行为数据是各个商业领域进行客户拓展的有用数据。

目前，获取电视用户行为数据的方法通常为：对原始广告视频进行处理，根据处理结果创建视频图像信息库，而对原始广告视频进行的处理是基于Hadoop的分布式结构。由于在Hadoop分布式文件***(HDFS)中，视频数据将根据字节被逻辑分割成多个分片(split)，这使得连续的帧被分割到不同的split，因此每个split对应的Map任务无法单独对其对应的split中的视频数据进行处理，从而导致视频数据处理速度过慢，进而导致电视用户行为数据获取过慢。

发明内容

本发明实施例提供了一种广告视频信息库的创建方法、广告视频识别方法及装置，旨在解决现有方法处理视频数据的速度过慢的问题。

本发明实施例是这样实现的，一种广告视频信息库的创建方法，所述方法包括：

从Hadoop分布式文件***中获取视频文件分片；

获取视频文件分片所在的视频文件名以及视频头数据；

读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧；

根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值；

根据所述至少一个特征值确定至少一个Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定；

存储由所述Key值和value值组成的键值对。

本发明实施例的另一目的在于提供一种广告视频识别方法，所述方法包括：

监控正在播放的电视频道，截取所述电视频道的一帧视频图像；

获取所述视频图像的特征值；

根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定；

将确定的Key值与预先创建的广告视频信息库的Key值比较，查找与所述确定的Key值相同的Key值对应的value值；

根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频。

本发明实施例的另一目的在于提供一种广告视频信息库的创建装置，所述装置包括：

视频文件分片获取单元，用于从Hadoop分布式文件***中获取视频文件分片；

视频头数据获取单元，用于获取视频文件分片所在的视频文件名以及视频头数据；

第一个关键帧读取单元，用于读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧；

特征值提取单元，用于根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值；

Key值确定单元，用于根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定；

键值对存储单元，用于存储由所述Key值和value值组成的键值对。

本发明实施例的另一目的在于提供一种广告视频识别装置，所述装置包括：

视频图像截取单元，用于监控正在播放的电视频道，截取所述电视频道的一帧视频图像；

特征值获取单元，用于获取所述视频图像的特征值；

键值对确定单元，用于根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定；

value值查找单元，用于将确定的Key值与预先创建的广告视频信息库的Key值比较，查找与所述确定的Key值相同的Key值对应的value值；

广告视频识别单元，用于根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频。

在本发明实施例中，由于读取了视频文件分片的结束位置后的第一个关键帧，使得各个视频文件分片互相关联，因此，能够分别对每个视频文件分片进行处理，从而提高了视频数据的处理速度。

附图说明

图1是本发明第一实施例提供的一种广告视频信息库的创建方法的流程图；

图2是本发明第一实施例提供的视频头数据传输示意图；

图3是本发明第二实施例提供的一种广告视频识别方法的流程图；

图4是本发明第三实施例提供的一种广告视频识别装置的结构图；

图5是本发明第四实施例提供的一种广告视频信息库的创建装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，从Hadoop分布式文件***中获取视频文件分片，根据获取的视频文件分片的视频头数据、读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧，根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值，再根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定，存储由所述Key值和value值组成的键值对。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种广告视频信息库的创建方法流程图，详述如下：

步骤S11，从Hadoop分布式文件***中获取视频文件分片。

该步骤中，利用Fuse-dfs工具，将Hadoop分布式文件***(HDFS)中的视频文件分片(split)映射到本地文件***(如图2的LocalFS)。这里的视频文件分片为原始广告视频文件对应的视频文件分片。

步骤S12，获取视频文件分片所在的视频文件名以及视频头数据。

利用Fuse-dfs工具，为每一个split初始化解码器(Map)，并以split所在的视频文件名作为输入，每个解码器对应的函数从视频文件的第一个split(视频头数据所在地)中读入视频头数据，即视频头数据向每一个解码Map任务节点传送一份，如图2所示。

步骤S13，读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧。

其中，关键帧相当于二维动画中的原画，指角色或者物体运动或变化中的关键动作所处的那一帧，视频文件的关键帧通常为I帧。

该步骤中，split块的大小与预定的BlocK大小相同，split的逻辑分割位置按照BlocK起止字节位置定义，解码读取split的视频数据时，将在split起始位置读取到的非关键帧数据丢弃，直到读到第一个关键帧才开始保留读取的视频数据；当读到split的结束位置时，继续读取，直到读取到split结束位置后的第一个关键帧为止。

可选地，所述读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧，具体包括：

A1、读取视频文件分片起始位置的帧，判断所述视频文件分片起始位置的帧是否为关键帧。

A2、在所述视频文件分片起始位置的帧为关键帧时，保留所述关键帧对应的视频数据，在所述视频文件分片起始位置的帧不为关键帧时，忽略所述关键帧对应的视频数据。

A3、继续读取视频文件分片的下一帧，并判断读取的视频文件分片的下一帧是否为关键帧，直到读取到视频文件分片的结束位置后的第一个关键帧才结束读取。

上述A1～A3中，由于读取了视频文件分片的结束位置后的第一个关键帧，保留了后继帧的信息，因此，便于后续单独对每个split中的视频数据进行处理，提高处理速度。

需要指出的是，由于视频文件分片(split)的起始位置的帧通常为非关键帧，为了加快读取速度，可采用以下读取方法：

a.忽略split起始位置的非关键帧；

b.读取split的下一个帧；

c.判断是否为I帧(关键帧)，若不是，则转到步骤b，若是I帧，则进入步骤d；

d.将该帧映射到一个Map节点(一个画面组映射到一个Map节点)；

e.继续读取下一帧；

f.判断是否是split结束位置后的第一个I帧，若是则结束读取，否则转至步骤d。

步骤S14，根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值。

该步骤中，由于保留了后继帧的信息，因此，可分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值，这里的特征值包括特征码(如160个字节的特征码)和视频图像的时间戳(这里指的是一帧视频图像对应的时间戳)。

步骤S15，根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定。

可选地，所述根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定，具体包括：

B1、计算所述特征值的指纹，所述指纹为大于1位的二进制码。具体地，对提取的全部或部分split的特征值计算其SimHash码，该SimHash码作为特征值的指纹，其为一个大于1位的二进制码，通常为64位的二进制码。

B2、将所述特征值的指纹的至少一位二进制码作为Key值，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名。其中，特征值包括视频图像的时间戳，Key值对应的value值包括特征值的指纹、视频图像的时间戳以及该视频图像对应的视频文件文件名。该步骤中，对单个特征值计算后得到一个Key值，例如，若对10个特征值进行计算，则得到10个Key。

进一步地，所述B2具体包括：

B21、将所述特征值的指纹拆分成4个16位的二进制码，所述特征值的指纹为64位的二进制码。具体地，当特征值有4个，且特征值的指纹为64位的二进制码时，将特征值的指纹按顺序平均拆分成4个16位的二进制码。

B22、分别以拆分得到的4个16位的二进制码作为4个Key，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名。

步骤S16，存储由所述Key值和value值组成的键值对。

本发明第一实施例中，从Hadoop分布式文件***中获取视频文件分片，根据获取的视频文件分片的视频头数据、读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧，根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值，再根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定，存储由所述Key值和value值组成的键值对。由于读取了视频文件分片的结束位置后的第一个关键帧，使得各个视频文件分片相互关联，因此，能够分别对每个视频文件分片进行处理，从而提高了视频数据的处理速度。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例二：

图3示出了本发明第二实施例提供的一种广告视频识别方法的流程图，本实施例中，利用了实施例一提供的广告视频信息库进行广告视频识别，详述如下：

步骤S31，监控正在播放的电视频道，截取所述电视频道的一帧视频图像。

该步骤中，实时监控用户正在观看的电视频道，并每隔一段时间截取一帧视频图像，比如每隔5秒或10秒截取一帧视频图像等，具体间隔时间可根据需要通过后台调整。

步骤S32，获取所述视频图像的特征值。

这里的特征值包括特征码(如160个字节的特征码)和视频图像的时间戳(这里指的是一帧视频图像对应的时间戳)。

步骤S33，根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定。

可选地，所述根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定，具体包括：

C1、计算所述特征值的指纹，所述指纹为大于1位的二进制码。具体地，对提取的每个split的特征值计算其SimHash码，该SimHash码作为特征值的指纹，其为一个大于1位的二进制码，通常为64位的二进制码。

C2、将所述特征值的指纹的至少一位二进制码作为Key值，所述Key值对应一个value值，所述value值由所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名组成。具体地，通常将指纹对应的二进制码按顺序拆分为多个二进制码，并将拆分的第一部分二进制码作为Key值。其中，特征值包括视频图像的时间戳，Key值对应的value值由特征值的指纹、视频图像的时间戳以及该视频图像对应的视频文件文件名组成。

步骤S34，将确定的Key值与预先创建的广告视频信息库的Key值比较，查找与所述确定的Key值相同的Key值对应的value值。

其中，预先创建的广告视频信息库能够分别对每个视频文件分片进行处理。

具体地，将确定的Key值与预先创建的广告视频信息库的Key值比较，若在预先创建的广告视频信息库中查找到相同的Key值，则提取与所述确定的Key值相同的Key值对应的value值。若在预先创建的广告视频信息库中没有查找到相同的Key值，则重新确定一个Key值后，再执行步骤S34。比如，假设特征值的指纹为一个64位的二进制码，将该64为的二进制码按顺序拆分为4个16进制码，且将拆分所得的第一个16进制码作为Key值，若在预先创建的广告视频信息库中没有查找到与第一个Key值相同的Key值，则将拆分所得的第二个16进制码作为第二个Key值，再将该第二个Key值与预先创建的广告视频信息库的Key值比较，若还没查到，则继续确定第三个Key值，直到4个Key值都查询完毕。

步骤S35，根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频。

具体地，所述根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频，具体包括：

D1、解析根据所述确定的Key值对应的value值，得到第一特征值的指纹。由于value值包括特征值的指纹，因此解析value值时，能够得到一个特征值的指纹，为了与后续的区分，此时获得的特征值的指纹定义为第一特征值的指纹。

D2、解析与所述确定的Key值相同的Key值对应的value值，得到第二特征值的指纹。由于value值包括特征值的指纹，因此解析value值时，能够得到一个特征值的指纹，为了与前面的第一特征值的指纹区分，此时获得的特征值的指纹定义为第二特征值的指纹。

D3、计算所述第一特征值的指纹和所述第二特征值的指纹的相似度。

D4、在所述第一特征值的指纹和所述第二特征值的指纹的相似度小于或等于预设的阈值时，识别所述视频图像为广告视频，在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，识别所述视频图像不为广告视频。当两个特征值的指纹的相似度满足预设的阈值时，判定截取的视频图像为广告视频，否则，判定截取的视频图像不是广告视频。

进一步地，当判定截取的视频图像为广告视频时，解析value值以得到视频图像的时间戳和视频文件名。

进一步地，所述在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，识别所述视频图像不为广告视频，具体包括：

在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，继续读取(假设特征值的指纹为一个64位的二进制码，将该64为的二进制码按顺序拆分为4个16进制码，且将拆分所得的第一个16进制码作为Key值)下一个16进制码作为Key值，再执行步骤S34和步骤S35，循环执行，直到读取了4个16进制码作为Key值。若根据4个Key值得到的特征值的指纹的相似度都不满足预设的阈值时，识别所述视频图像不为广告视频。

本发明第二实施例中，监控正在播放的电视频道，截取所述电视频道的一帧视频图像，获取所述视频图像的特征值，根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定，将确定的Key值与预先创建的广告视频信息库的Key值比较，查找与所述确定的Key值相同的Key值对应的value值，根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频。由于预先创建的广告视频信息库分别对每个视频文件分片进行处理，因此，提高了视频数据的处理速度，进而提高了广告视频的识别速度。

实施例三：

图4示出了本发明第三实施例提供的一种广告视频识别装置的结构图，该广告视频识别装置可以应用于各种智能终端中，该智能终端包括经无线接入网RAN与一个或多个核心网进行通信的用户设备，该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等，例如，用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。又例如，该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明，仅示出了与本发明实施例相关的部分。

该广告视频识别装置包括：视频图像截取单元41、特征值获取单元42、键值对确定单元43、value值查找单元44、广告视频识别单元45。其中：

视频图像截取单元41，用于监控正在播放的电视频道，截取所述电视频道的一帧视频图像。

具体地，实时监控用户正在观看的电视频道，并每隔一段时间截取一帧视频图像，比如每隔5秒或10秒截取一帧视频图像等，具体间隔时间可根据需要通过后台调整。

特征值获取单元42，用于获取所述视频图像的特征值。

键值对确定单元43，用于根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定。

其中，所述键值对确定单元43包括：

指纹计算模块，用于计算所述特征值的指纹，所述指纹为大于1位的二进制码。具体地，对提取的每个split的特征值计算其SimHash码，该SimHash码作为特征值的指纹，其为一个大于1位的二进制码，通常为64位的二进制码。

指纹拆分模块，用于将所述特征值的指纹的至少一位二进制码作为Key值，所述Key值对应一个value值，所述value值由所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名组成。具体地，通常将指纹对应的二进制码按顺序拆分为多个二进制码，并将拆分的第一部分二进制码作为Key值。

value值查找单元44，用于将确定的Key值与预先创建的广告视频信息库的Key值比较，查找与所述确定的Key值相同的Key值对应的value值。

具体地，将确定的Key值与预先创建的广告视频信息库的Key值比较，若在预先创建的广告视频信息库中没有查找到相同的Key值，则重新确定一个Key值后，再执行value值查找单元44。比如，假设特征值的指纹为一个64位的二进制码，将该64为的二进制码按顺序拆分为4个16进制码，且将拆分所得的第一个16进制码作为Key值，若在预先创建的广告视频信息库中没有查找到与第一个Key值相同的Key值，则将拆分所得的第二个16进制码作为第二个Key值，再将该第二个Key值与预先创建的广告视频信息库的Key值比较，若还没查到，则继续确定第三个Key值，直到4个Key值都查询完毕。

广告视频识别单元45，用于根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频。

其中，所述广告视频识别单元45包括：

第一特征值的指纹确定模块，用于解析根据所述确定的Key值对应的value值，得到第一特征值的指纹。

第二特征值的指纹确定模块，用于解析与所述确定的Key值相同的Key值对应的value值，得到第二特征值的指纹。

指纹相似度计算模块，用于计算所述第一特征值的指纹和所述第二特征值的指纹的相似度。

广告视频判定模块，用于在所述第一特征值的指纹和所述第二特征值的指纹的相似度小于或等于预设的阈值时，识别所述视频图像为广告视频，在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，识别所述视频图像不为广告视频。

在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，继续读取(假设特征值的指纹为一个64位的二进制码，将该64为的二进制码按顺序拆分为4个16进制码，且将拆分所得的第一个16进制码作为Key值)下一个16进制码作为Key值，再执行value值查找单元44和广告视频识别单元45，循环执行，直到读取了4个16进制码作为Key值。若根据4个Key值得到的特征值的指纹的相似度都不满足预设的阈值时，识别所述视频图像不为广告视频。

本发明第三实施例中，由于预先创建的广告视频信息库分别对每个视频文件分片进行处理，因此，提高了视频数据的处理速度，进而提高了广告视频的识别速度。

实施例四：

图5示出了本发明第四实施例提供的一种广告视频信息库的创建装置的结构图，为了便于说明，仅示出了与本实施例相关的部分。

该广告视频信息库的创建装置包括：视频文件分片获取单元51、视频头数据获取单元52、第一个关键帧读取单元53、特征值提取单元54、Key值确定单元55、键值对存储单元56。其中：

视频文件分片获取单元51，用于从Hadoop分布式文件***中获取视频文件分片。

视频头数据获取单元52，用于获取视频文件分片所在的视频文件名以及视频头数据。

第一个关键帧读取单元53，用于读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧。

可选地，所述第一个关键帧读取单元53包括：

关键帧判断模块，用于读取视频文件分片起始位置的帧，判断所述视频文件分片起始位置的帧是否为关键帧。

不同帧的处理模块，用于在所述视频文件分片起始位置的帧为关键帧时，保留所述关键帧对应的视频数据，在所述视频文件分片起始位置的帧不为关键帧时，忽略所述关键帧对应的视频数据。

读取结束判断模块，用于继续读取视频文件分片的下一帧，并判断读取的视频文件分片的下一帧是否为关键帧，直到读取到视频文件分片的结束位置后的第一个关键帧才结束读取。

上述关键帧判断模块、不同帧的处理模块、读取结束判断模块中，由于读取了视频文件分片的结束位置后的第一个关键帧，保留了后继帧的信息，因此，便于后续单独对每个split中的视频数据进行处理，提高处理速度。

特征值提取单元54，用于根据所述视频头数据、及所述第一个关键帧分别解码每个视频文件分片，以及分别提取每个视频文件分片的特征值。

Key值确定单元55，用于根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定。

可选地，所述Key值确定单元55包括：

指纹计算模块，用于计算所述特征值的指纹，所述指纹为大于1位的二进制码。具体地，对提取的全部或部分split的特征值计算其SimHash码，该SimHash码作为特征值的指纹，其为一个大于1位的二进制码，通常为64位的二进制码。

指纹与Key值转换模块，用于将所述特征值的指纹的至少一位二进制码作为Key值，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名。

进一步地，所述指纹与Key值转换模块包括：

指纹拆分模块，用于将所述特征值的指纹拆分成4个16位的二进制码，所述特征值的指纹为64位的二进制码。具体地，当特征值有4个，且特征值的指纹为64位的二进制码时，将特征值的指纹按顺序平均拆分成4个16位的二进制码。

二进制与Key值对应模块，用于分别以拆分得到的4个16位的二进制码作为4个Key，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名。

键值对存储单元56，用于存储由所述Key值和value值组成的键值对。

本发明第四实施例中，由于读取了视频文件分片的结束位置后的第一个关键帧，使得各个视频文件分片相互关联，因此，能够分别对每个视频文件分片进行处理，从而提高了视频数据的处理速度。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种广告视频信息库的创建方法，其特征在于，所述方法包括：

从Hadoop分布式文件***中获取视频文件分片；

获取视频文件分片所在的视频文件名以及视频头数据；

根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定；

存储由所述Key值和value值组成的键值对。

2.根据权利要求1所述的方法，其特征在于，所述读取并保留视频文件分片的关键帧对应的视频数据，以及读取所述视频文件分片的结束位置后的第一个关键帧，具体包括：

读取视频文件分片起始位置的帧，判断所述视频文件分片起始位置的帧是否为关键帧；

在所述视频文件分片起始位置的帧为关键帧时，保留所述关键帧对应的视频数据，在所述视频文件分片起始位置的帧不为关键帧时，忽略所述关键帧对应的视频数据；

继续读取视频文件分片的下一帧，并判断读取的视频文件分片的下一帧是否为关键帧，直到读取到视频文件分片的结束位置后的第一个关键帧才结束读取。

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征值确定Key值，每个Key值对应一个value值，所述value值由所述特征值和视频文件名确定，具体包括：

计算所述特征值的指纹，所述指纹为大于1位的二进制码；

将所述特征值的指纹的至少一位二进制码作为Key值，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括视频图像的时间戳以及视频文件名。

4.根据权利要求3所述的方法，其特征在于，所述将所述特征值的指纹的至少一位二进制码作为Key值，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名，具体包括：

将所述特征值的指纹拆分成4个16位的二进制码，所述特征值的指纹为64位的二进制码；

分别以拆分得到的4个16位的二进制码作为4个Key，每个Key值对应一个value值，所述value值包括所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名。

5.一种广告视频识别方法，其特征在于，所述方法包括：

获取所述视频图像的特征值；

6.根据权利要求5所述的方法，其特征在于，所述根据所述特征值确定一个Key值，所述Key值对应一个value值，所述value值由所述特征值和视频图像所属的视频文件名确定，具体包括：

计算所述特征值的指纹，所述指纹为大于1位的二进制码；

将所述特征值的指纹的至少一位二进制码作为Key值，所述Key值对应一个value值，所述value值由所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名组成。

7.根据权利要求6所述的方法，其特征在于，所述根据所述确定的Key值对应的value值以及所述与所述确定的Key值相同的Key值对应的value值识别所述视频图像是否为广告视频，具体包括：

解析根据所述确定的Key值对应的value值，得到第一特征值的指纹；

解析与所述确定的Key值相同的Key值对应的value值，得到第二特征值的指纹；

计算所述第一特征值的指纹和所述第二特征值的指纹的相似度；

在所述第一特征值的指纹和所述第二特征值的指纹的相似度小于或等于预设的阈值时，识别所述视频图像为广告视频，在所述第一特征值的指纹和所述第二特征值的指纹的相似度大于预设的阈值时，识别所述视频图像不为广告视频。

8.一种广告视频信息库的创建装置，其特征在于，所述装置包括：

9.一种广告视频识别装置，其特征在于，所述装置包括：

特征值获取单元，用于获取所述视频图像的特征值；

10.根据权利要求9所述的装置，其特征在于，所述键值对确定单元包括：

指纹计算模块，用于计算所述特征值的指纹，所述指纹为大于1位的二进制码；

指纹拆分模块，用于将所述特征值的指纹的至少一位二进制码作为Key值，所述Key值对应一个value值，所述value值由所述特征值的指纹、所述特征值包括的视频图像的时间戳以及视频文件名组成。

11.根据权利要求10所述的装置，其特征在于，所述广告视频识别单元包括：

第一特征值的指纹确定模块，用于解析根据所述确定的Key值对应的value值，得到第一特征值的指纹；

第二特征值的指纹确定模块，用于解析与所述确定的Key值相同的Key值对应的value值，得到第二特征值的指纹；

指纹相似度计算模块，用于计算所述第一特征值的指纹和所述第二特征值的指纹的相似度；