CN103970906B

CN103970906B - 视频标签的建立方法和装置、视频内容的显示方法和装置

Info

Publication number: CN103970906B
Application number: CN201410228398.4A
Authority: CN
Inventors: 高浩渊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2017-07-04
Anticipated expiration: 2034-05-27
Also published as: CN103970906A

Abstract

本发明公开了一种视频标签的建立方法和装置、视频内容的显示方法和装置。所述方法包括：在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与匹配图像帧对应的匹配信息，其中，匹配信息至少包括：匹配图像帧在视频中的时间节点；根据匹配信息，在视频中为待匹配对象建立视频标注标签。本发明通过在视频中为待匹配对象建立视频标注标签以及在视频播放过程中将与视频标注标签对应的标注信息加入到视频图像中进行显示的技术手段，优化了现有的网络视频服务，提高了产品厂商在视频中推广产品的有效性，保证了视频用户能够及时、准确、有效的获取视频中感兴趣的产品，大大简化了视频用户对感兴趣产品的购买流程。

Description

视频标签的建立方法和装置、视频内容的显示方法和装置

技术领域

本发明实施例涉及视频图像处理技术，尤其涉及一种视频标签的建立方法和装置、视频内容的显示方法和装置。

背景技术

随着互联网技术的不断发展，在网络带宽不断增长的今天，网络视频以其便捷的访问体验、多样化的影片来源以及实时的更新速度吸引了广大的用户，使得网络视频成为了用户网络生活中不可或缺的重要组成部分。相应的，越来越多的厂商将自己的产品植入到网络视频中，希望通过视频的热度和人气对相关产品进行良性推广。

所谓网络视频，是指由网络视频服务商(例如，百度爱奇艺)提供的、以流媒体为播放格式的、可以在线直播或点播的声像文件。网络视频一般需要独立的播放器，文件格式主要是基于P2P(Peer to Peer，对等网络)技术占用客户端资源较少的FLV(Flash Video，流媒体)格式。

但是，随着终端技术以及视频网站设计技术的不断发展，使得人们对于网络视频的要求变得更高，传统的网络视频服务商已经无法满足人们在观看网络视频过程中，日益增强的个性化、便捷化的需求。

发明内容

有鉴于此，本发明实施例提供一种视频标签的建立方法和装置、视频内容的显示方法和装置，以丰富视频中的信息量，提高视频服务的个性化和便捷化。

在第一方面，本发明实施例提供了一种视频标签的建立方法，包括：

在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与所述匹配图像帧对应的匹配信息，其中，所述匹配信息至少包括：所述匹配图像帧在所述视频中的时间节点；

根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

在第二方面，本发明实施例提供了一种视频内容的显示方法，包括：

播放视频；

根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示。

在第三方面，本发明实施例提供了一种视频标签的建立装置，包括：

匹配信息获取单元，用于在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与所述匹配图像帧对应的匹配信息，其中，所述匹配信息至少包括：所述匹配图像帧在所述视频中的时间节点；

标注标签建立单元，用于根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

在第四方面，本发明实施例提供了一种视频内容的显示装置，包括：

视频播放单元，用于播放视频；

标注信息显示单元，用于根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示。

本发明通过在视频中为待匹配对象建立视频标注标签以及在视频播放过程中将与视频标注标签对应的标注信息加入到视频图像中进行显示的技术手段，优化了现有的网络视频服务，丰富了视频中的信息量，提高了产品厂商在视频中推广产品的有效性，保证了视频用户能够及时、准确、有效的获取视频中感兴趣的产品，大大简化了视频用户对感兴趣产品的购买流程，提高视频服务的个性化和便捷化。

附图说明

图1是本发明第一实施例的一种视频标签的建立方法的流程图；

图2是本发明第一实施例的一种确定待匹配对象在匹配图像帧中具***置的示意图；

图3是本发明第二实施例的一种视频标签的建立方法的流程图；

图4是本发明第三实施例的一种视频标签的建立方法的流程图；

图5是本发明第三实施例的一种判断关联图像帧中是否包括待匹配对象的方法流程图；

图6是本发明第三实施例的一种在关联区域内确定候选区域的示意图；

图7是本发明第四实施例的一种视频内容的显示方法的流程图；

图8是本发明第四实施例的一种在视频暂停时显示标注信息的示意图；

图9是本发明第四实施例的一种在视频播放过程中显示标注信息的示意图；

图10是本发明实施例的一种应用场景示意图；

图11是本发明第五实施例的一种视频标签的建立装置的结构图；

图12是本发明第六实施例的一种视频内容的显示装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

首先将本发明各实施例的实现思路简述如下：通过本发明各实施例的方法，产品生产厂商或者第三方的产品经销商可以将视频中出现的产品以及相应的产品介绍提供给网络视频服务商或者第三方的视频加工商，介绍的产品可以是任何用户可能感兴趣，或希望推荐给用户的内容，例如，视频人物的服饰、视频人物开的汽车、视频中出现的建筑物或者视频中出现的景点等；网络视频服务商或者第三方的视频加工商在视频中查找该待匹配产品出现的位置，并添加相应的视频标注标签；当视频用户登录网络视频服务商提供的视频网站观看视频过程中，如果视频中出现了该产品，网络视频服务商可以将产品的详细信息推送至视频用户。

第一实施例

图1是本发明第一实施例的一种视频标签的建立方法的流程图，本实施例的方法可以由视频标签的建立装置来执行，该装置可通过硬件和/或软件的方式实现，一般可集成于服务器内，例如网络视频服务商或者第三方的视频加工商控制的能够提供视频服务的服务器。本实施例的方法具体包括如下操作：

110、在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与所述匹配图像帧对应的匹配信息，其中，所述匹配信息至少包括：所述匹配图像帧在所述视频中的时间节点。

在本实施例中，服务器在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与所述匹配图像帧对应的匹配信息。

在本实施例中，待匹配对象具体可以为在视频中出现的人物、动物、服饰、汽车、电子产品、家具或者景点等实体对象。当然，待匹配对象还可以为视频中出现的其他实体对象，对此并不限定，一般是需要向用户推荐信息的实体对象。

所述视频，就是通过将一系列的静止图片(视频帧)连续播放而形成的。在本实施例中，匹配图像帧具体是指在一个视频中，包括有上述待匹配对象的视频帧。

可以理解的是，可以通过人工匹配的方式在视频中查找包括待匹配对象的至少一个匹配图像帧，但是这种查找方式费时费力，特别是待匹配对象较多或者视频时间较长时，查找效率极差，而且容易漏查找。

在本实施例中，采取服务器匹配的方式在视频中查找包括待匹配对象的至少一个匹配图像帧。其中，服务器可以获取待匹配对象的特征信息(例如，灰度特征信息或者图像特征信息等)，将所述特征信息分别与所述视频的各视频帧进行图像匹配，将匹配通过的视频帧作为匹配图像帧，并获取匹配图像帧在所述视频中的时间节点作为匹配信息。

其中，匹配图像帧在所述视频中的时间节点是指匹配图像帧在视频中具体的播放位置：其中，可以获取匹配图像帧的帧编号或者匹配图像帧在视频中的时标作为匹配图像帧在所述视频中的时间节点。

举例而言，待匹配对象为某一型号的汽车，该汽车出现在视频A中，服务器通过将该汽车的特征信息与视频A中的各视频帧进行匹配，如果视频A在第3分40秒时播放的视频帧(或者编号为10004的视频帧)中包括该汽车的特征信息，则将3分40秒这个时标值(或者10004这个帧编号值)作为匹配图像帧在所述视频中的时间节点。

当然，本领域技术人员可以理解的是，匹配信息除了包括匹配图像帧在所述视频中的时间节点之外，还可以包括待匹配对象在所述匹配图像帧中的位置信息或者待匹配对象与匹配视频帧进行匹配运算得到的匹配系数等信息，对此并不限定。其中，匹配系数具体是指待匹配对象与匹配视频帧进行相关度运算得到的相关度权值，其中，匹配系数越大，代表待匹配对象出现在匹配视频帧中的概率越大。在实际应用中，当多个连续视频帧均为匹配视频帧时，可以选在匹配系数最大的匹配视频帧中***相应的视频标注标签。

其中，待匹配对象在所述匹配图像帧中的位置信息具体是指待匹配对象在匹配图像帧中的位置坐标。在图2示出了一种待匹配对象在匹配图像帧中位置坐标的示意图。如图2所示，匹配视频帧200为1024× 768格式的图片，待匹配对象与匹配视频帧200中的区域21相匹配，则可以获取区域21的四个端点坐标(256，256)、(384，256)、(256，736)和(384，736)作为待匹配对象在匹配图像帧中的位置坐标。

120、根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

在本实施例中，服务器根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

其中，可以将时间节点与待匹配对象的标注信息之间的对应关系，作为视频标注标签；也可以将时间节点、位置信息与待匹配对象的标注信息之间的对应关系，作为视频标注标签。其中，在表1中示出了一种视频标注标签的结构表。

其中，待匹配对象的标注信息可以具体为对待匹配对象的描述信息，例如：当待匹配对象为服饰时，标注信息可以为服饰的品牌名、款式名、价格以及购买链接等信息；当待匹配对象为景点时，标注信息可以为景点名称、景点所在地点以及景点描述的链接等信息。

其中，在本实施例中，可以将视频标注标签与视频对应存储。

表1

本发明实施例的技术方案，不需要用户进行人工搜索即可获取推荐内容的详细信息，对用户的人工搜索能力也没有要求，因此适合任何用户群体。同时，能够使用户在观看视频的过程中立即获知推荐内容的信息，因此用户的购买欲望或者消费计划不会随着产品信息获取时间的延迟而受到削弱，有利于产品厂商和视频用户，既有利于产品厂商推广产品也有利于视频用户及时、准确、有效的获取感兴趣产品的信息。优化了现有的网络视频服务，丰富了视频中的信息量，提高了产品厂商在视频中推广产品的有效性，保证了视频用户能够及时、准确、有效的获取视频中感兴趣的产品，大大简化了视频用户对感兴趣产品的购买流程，提高视频服务的个性化和便捷化。

可以理解的是，对不同的待匹配对象进行视频查找时，匹配准确率和匹配效率都不尽相同。例如，人脸识别技术目前已经非常成熟，目前也有很多的新兴算法都是基于人脸识别的，其匹配速度和匹配准确度都相当高。而诸如服饰之类对象的识别技术则比较冷门，只能采取常规的图像识别技术，其匹配速度和匹配准确度都远远低于人脸识别。

针对上述问题，本发明实施例在视频中对于一些不容易进行图像识别的待匹配对象进行查找之前，首先在视频中查找与该待匹配对象相关联的关联匹配对象，在包括关联匹配对象的关联图像帧中查找该待匹配对象。其中，关联匹配对象的选取原则是：对关联匹配对象进行视频查找相对容易(识别技术相对成熟或者识别过程相对简单等)以及关联匹配对象与待匹配对象出现于同一视频帧中的概率大于预定的阈值。

举例而言，如果待匹配对象为服饰时，可以首先在视频中查找包括穿戴所述服饰的视频人物的人脸的关联图像帧集合，之后在关联图像帧集合中进一步查找服饰；或者，如果待匹配对象为汽车时，可以首先在视频中查找包括道路的关联图像帧集合，之后在关联图像帧集合中进一步查找汽车。

第二实施例

图3为本发明第二实施例的一种视频标签的建立方法流程图，本实施例以上述实施例为基础进行优化，在本实施例中，优选的将操作根据所述关联匹配对象，在视频中查找包括待匹配对象的至少一个匹配图像帧并获取相应的匹配信息优化为：获取所述待匹配对象的关联匹配对象；在所述视频中查找包括所述关联匹配对象的关联图像帧集合；在所述关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

相应地，本实施例的方法具体包括如下操作：

310、获取待匹配对象的关联匹配对象。

在一个典型例子中，待匹配对象为服饰，获取的关联匹配对象为人脸，其中，所述人脸与所述视频中穿戴所述服饰的视频人物相对应。

320、在所述视频中查找包括所述关联匹配对象的关联图像帧集合。

330、在所述关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

340、根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

本发明实施例通过首先在视频中查找包括关联匹配对象的关联图像帧集合，之后在关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息的技术手段，对于在图像识别领域匹配效果不好的待匹配对象(例如服饰)，不是直接在视频中的各个视频帧中进行匹配，而是首先将与待匹配对象相关联的、匹配效果较好的关联匹配对象(例如人脸)在视频中进行匹配，并获取相应的关联视频帧集合，此时只需要将待匹配对象在关联视频帧集合中进行查找即可，这大大简化了匹配视频帧的查找难度，大大提高了对待匹配对象的匹配速度和匹配准确度。

在上述各实施例的基础上，在所述视频中查找之前，还包括：

获取所述视频中的关键帧集合，作为待查找的视频，其中，所述关键帧集合中的各关键帧按照在所述视频中的时间顺序排列。

其中，所述获取所述视频中的关键帧集合具体包括：

按照预定的抽样频率，对所述视频进行顺序抽样，将顺序获取的视频帧的集合作为所述关键帧集合。

举例而言，一个视频中包括了100000个视频帧，视频帧率为16HZ，也就是说，每秒要连续显示16个视频帧，考虑到在实际应用时，视频内容中的场景变化速度不会非常剧烈，很多连续的视频帧中的图像内容非常近似，另外，本发明实施例的主要目的是向观看视频的用户推送与待匹配对象相对应的标注信息，理论上说，只要能够保证在每一个场景下都能对待匹配对象进行匹配查找，就能够满足实际需求。因此没有必要对每一帧的图像都进行查找，优选的，可以每隔一段时间(例如2s)从视频中抽取一个视频帧作为关键帧，并将关键帧的集合作为待查找的视频，这样设置的好处是，在不明显影响最终查找结果的基础上，进一步提高了匹配视频帧的查找效率，进一步提高了对待匹配对象的匹配速度和匹配准确度。

第三实施例

图4为本发明第三实施例的一种视频标签的建立方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，优选的将操作根据所述关联匹配对象，在视频中查找包括待匹配对象的至少一个匹配图像帧并获取相应的匹配信息优化为：获取所述待匹配对象的关联匹配对象；在所述视频中顺序查找包括所述关联匹配对象的关联图像帧；如果确定所述关联图像帧中包括所述待匹配对象，将所述关联图像帧作为所述匹配图像帧，并获取相应的匹配信息；使用视频跟踪算法，从所述关联图像帧所在的视频位置开始，在所述视频中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

相应地，本实施例的方法具体包括如下操作：

410、获取所述待匹配对象的关联匹配对象。

420、在所述视频中顺序查找一个包括所述关联匹配对象的关联图像帧。

430、判断所述关联图像帧中是否包括所述待匹配对象：若是，执行操作440；否则，返回操作420。

在本实施例中，可以直接在关联图像帧的全部图像区域内进行匹配，以确定关联图像帧中是否包括所述待匹配对象，也可以根据关联匹配对象在该关联图像帧中的位置信息，选定一个或者多个候选图像区域，在候选图像区域内进行匹配，以确定关联图像帧中是否包括所述待匹配对象，对此并不限定。显而易见的，通过选定候选图像区域进行匹配的方式可以进一步提高对待匹配对象的匹配速度，提高匹配效率。

举例而言，待匹配对象为服饰，关联匹配图像为人脸，服务器可以在关联图像帧中获取人脸所在的位置信息，作为关联区域，在关联区域的下方确定一个候选区域，确定该候选区域内是否包括该服饰；待匹配对象为汽车，关联匹配图像为道路，服务器可以在关联图像帧中获取道路所在的位置信息，作为关联区域，在关联区域的上方确定一个候选区域，确定该候选区域内是否包括该汽车。

在图5中示出了一种判断关联图像帧中是否包括待匹配对象的方法流程图，如图5所示，该方法具体包括如下操作：

4301、获取所述关联图像帧中与所述关联匹配对象相匹配的关联区域。

4302、根据所述关联区域，确定与所述待匹配对象对应的至少一个候选区域。

在一个具体例子中，待匹配对象为服装、关联匹配对象为穿着该服装的视频人物的头像。在图6中示出了一种在关联区域内确定候选区域的示意图。如图6所示，服务器首先获取视频帧600中与头像相匹配的关联区域61，考虑到服饰以很大的概率下会位于头像所在的关联区域61之下，所以可以根据关联区域61来确定候选区域62所在的位置，并在候选区域62内匹配待匹配对象。

当然，为了尽可能的避免漏查找，也可以选定多个候选区域进行匹配，对此并不限定。

4303、将所述待匹配对象的对象特征信息与所述候选区域的特征信息进行相关度匹配计算并得到相应的相关度阈值。

在一个具体例子中，服务器使用特征匹配法将所述待匹配对象的对象特征信息与所述候选区域的特征信息进行相关度匹配计算，具体为：分别提取待匹配对象和候选区域的特征点集合，使用提取的两个特征点集合来进行相关度匹配计算，并得到相应的相关度阈值。

当然，服务器还可以采用其他方法将待匹配对象的对象特征信息与所述候选区域的特征信息进行相关度匹配计算，例如，模型分类法等，对此并不限定。

4304、判断所述相关度阈值是否大于预设门限值：若是，执行操作4305；否则，执行操作4306。

4305、确定所述关联图像帧中包括所述待匹配对象。

4306、确定所述关联图像帧中不包括所述待匹配对象。

440、将所述关联图像帧作为所述匹配图像帧，并获取相应的匹配信息。

450、使用视频跟踪算法，从所述关联图像帧所在的视频位置开始，在所述视频中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

考虑到在实际应用时，视频内容中的场景变化速度不会非常剧烈，视频中的前后两帧的相关性一般较大，所以可以合理估计当某一个匹配视频中包括待匹配对象时，在其后的一个或者多个视频帧中同样会包括该待匹配对象。所以可以视频跟踪算法，对待匹配对象在下一个视频帧中可能出现的区域进行预先估计，在可能出现的位置中查找该待匹配对象。

460、判断当前查找到的最后一个匹配图像帧是否为所述视频的最后一个视频帧：若是，执行操作460；否则，返回操作420。

470、根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

本发明实施例通过在根据关联匹配对象查找到一个待匹配对象所在的匹配视频帧后，使用视频跟踪算法，在该匹配视频帧所在的视频位置开始，继续查找待匹配对象的技术手段，进一步提高了匹配视频帧的查找效率，进一步提高了对待匹配对象的匹配速度。

第四实施例

在图7中示出了本发明第四实施例的一种视频内容的显示方法的流程图。本实施例的方法可以由视频内容的显示装置来执行，该装置可通过硬件和/或软件的方式实现，一般可集成于终端设备内。本实施例的方法具体包括如下操作：

710、播放视频。

在本实施例中，终端设备通过登录网络视频服务商提供的视频网站获取并播放视频。

720、根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示。

在本实施例中，终端设备根据视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示。

其中，视频标注标签的匹配信息中包括：包括有待匹配对象的匹配图像帧在所述视频中的时间节点，还可以包括待匹配对象在所述匹配图像帧中的位置信息或者待匹配对象与匹配视频帧进行匹配运算得到的匹配系数等信息，对此并不限定。

视频标注标签对应的标注信息具体为对待匹配对象的描述信息，例如：当待匹配对象为服饰时，标注信息可以为服饰的品牌名、款式名、价格以及购买链接等信息；当待匹配对象为景点时，标注信息可以为景点名称、景点所在地点以及描述景点的网站链接等信息。

在本实施例中，服务器根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示具体可以包括下述四种方式：

方式1、如果播放的视频的当前时间节点存在对应的视频标注标签，将与所述视频标注标签对应的标注信息加入到与匹配信息中位置信息相适应的视频图像中进行显示。

方式2、如果在视频暂停播放时，暂停播放时间点位于所述时间节点对应的时间区间之内，将所述视频标注标签的标注信息加入到与匹配信息中位置信息相适应的视频图像中进行显示。其中，在图8中示出了使用方式2在视频暂停时显示标注信息的示意图。

方式3、如果播放的视频的当前时间节点存在对应的视频标注标签，将与所述视频标注标签对应的标注信息加入到当前播放的视频图像的边界位置进行显示。

方式4、如果在视频暂停播放时，暂停播放时间点位于所述时间节点对应的时间区间之外，将所述视频标注标签的标注信息加入到当前播放的视频图像的边界位置进行显示。其中，所述边界位置包括视频图像的顶部区域和/或底部区域。其中，在图9中示出了使用方式4在视频播放过程中显示标注信息的示意图。

在图10示出了本发明实施例的一种应用场景示意图。如图10所示，本应用场景包括：产品厂商或者第三方经销商终端101、网络视频服务器或者第三方服务器102以及用户终端103。假设产品厂商或者第三方经销商终端101想要推广热播剧《来自星星的你》第06集中男演员金秀贤所穿过的全部服装(假设为6件)，可以将待推广的6件服装的图片以及相应的6个标注信息(品牌、型号、购买链接等)发送至网络视频服务器或者第三方服务器102，以实现在网络视频《来自星星的你》第06集中添加相应的视频标注标签。

网络视频服务器或者第三方服务器102在接收到产品厂商或者第三方经销商终端101发送的6件待推广服装后，可以首先根据这6件服装的图片建立6个不同的服装模型，以及一个不属于这6个服装模型合集的一个不匹配模型，然后在《来自星星的你》第06集的视频中进行金秀贤的人脸查找，当查找到一个包括金秀贤人脸的关联匹配视频帧后，分别使用之前建立的7个模型与该关联匹配视频帧进行匹配，为匹配程度最高的模型对应服装建立相应的视频标注标签。当对该视频匹配完成后，将建立的各个视频标注标签与该视频对应存储于网络视频服务器内。

当用户终端103通过网络视频服务器提供的视频网站获取并播放该视频时，网络视频服务器将与所述视频标注标签对应的标注信息在视频图像中进行显示。

第五实施例

在图11中示出了本发明第五实施例的一种视频标签的建立装置结构图。如图11所示，所述装置包括：

匹配信息获取单元111，用于在视频中查找包括待匹配对象的至少一个匹配图像帧，并获取与所述匹配图像帧对应的匹配信息，其中，所述匹配信息至少包括：所述匹配图像帧在所述视频中的时间节点。

标注标签建立单元112，用于根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签。

在上述各实施例的基础上，所述匹配信息获取单元还可以用于，获取所述待匹配对象在所述匹配图像帧中的位置信息作为与所述匹配图像帧对应的匹配信息。

在上述各实施例的基础上，所述匹配信息获取单元具体可以用于：

获取所述待匹配对象的关联匹配对象；

在所述视频中查找包括所述关联匹配对象的关联图像帧集合；

在所述关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

在上述各实施例的基础上，所述匹配信息获取单元具体可以包括：

关联匹配对象获取子单元，用于获取所述待匹配对象的关联匹配对象；

关联图像帧获取子单元，用于在所述视频中顺序查找包括所述关联匹配对象的关联图像帧；

匹配子单元，用于如果确定所述关联图像帧中包括所述待匹配对象，将所述关联图像帧作为所述匹配图像帧，并获取相应的匹配信息；

匹配信息获取子单元，用于使用视频跟踪算法，从所述关联图像帧所在的视频位置开始，在所述视频中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

在上述各实施例的基础上，所述待匹配对象可以为服饰，所述关联匹配对象可以为人脸，其中，所述人脸与所述视频中穿戴所述服饰的视频人物相对应。

在上述各实施例的基础上，所述匹配子单元具体可以用于：

获取所述关联图像帧中与所述关联匹配对象相匹配的关联区域；

根据所述关联区域，确定与所述待匹配对象对应的至少一个候选区域；

将所述待匹配对象的对象特征信息与所述候选区域的特征信息进行相关度匹配计算并得到相应的相关度阈值；

如果所述相关度阈值大于预设门限值，确定所述关联图像帧中包括所述待匹配对象。

本发明实施例所提供的视频标签的建立装置可用于执行本发明任意实施例提供的视频标签的建立方法，具备相应的功能模块，实现相同的有益效果。

第六实施例

在图12中示出了本发明第六实施例的一种视频内容的显示装置结构图。如图12所示，所述装置包括：

视频播放单元121，用于播放视频。

标注信息显示单元122，用于根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示。

在上述各实施例的基础上，所述标注信息显示单元可以具体用于：

如果播放的视频的当前时间节点存在对应的视频标注标签，将与所述视频标注标签对应的标注信息加入到与匹配信息中位置信息相适应的视频图像中进行显示；

如果在视频暂停播放时，暂停播放时间点位于所述时间节点对应的时间区间之内，将所述视频标注标签的标注信息加入到与匹配信息中位置信息相适应的视频图像中进行显示；

如果播放的视频的当前时间节点存在对应的视频标注标签，将与所述视频标注标签对应的标注信息加入到当前播放的视频图像的边界位置进行显示；

如果在视频暂停播放时，暂停播放时间点位于所述时间节点对应的时间区间之外，将所述视频标注标签的标注信息加入到当前播放的视频图像的边界位置进行显示；

其中，所述边界位置包括视频图像的顶部区域和/或底部区域。

本发明实施例所提供的视频内容的显示装置可用于执行本发明任意实施例提供的视频内容的显示方法，具备相应的功能模块，实现相同的有益效果。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标签的建立方法，其特征在于，包括：

根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签；

所述在视频中查找包括待匹配对象的至少一个匹配图像帧并获取相应的匹配信息具体包括：

获取所述待匹配对象的关联匹配对象；

在所述关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息；

或者，

获取所述待匹配对象的关联匹配对象；

在所述视频中顺序查找包括所述关联匹配对象的关联图像帧；

如果确定所述关联图像帧中包括所述待匹配对象，将所述关联图像帧作为所述匹配图像帧，并获取相应的匹配信息；

使用视频跟踪算法，从所述关联图像帧所在的视频位置开始，在所述视频中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息。

2.根据权利要求1所述的方法，其特征在于：所述匹配信息还包括所述待匹配对象在所述匹配图像帧中的位置信息。

3.根据权利要求1所述的方法，其特征在于，所述待匹配对象为服饰，所述关联匹配对象为人脸，其中，所述人脸与所述视频中穿戴所述服饰的视频人物相对应。

4.根据权利要求1所述的方法，其特征在于，在所述视频中查找之前，还包括：

获取所述视频中的关键帧集合，作为待查找的视频，其中，所述关键帧集合中的各关键帧按照在所述视频中的时间顺序排列；

其中，所述获取所述视频中的关键帧集合具体包括：

5.根据权利要求1所述的方法，其特征在于，所述如果确定所述关联图像帧中包括所述待匹配对象，将所述关联图像帧作为所述匹配图像帧并获取相应的匹配信息具体包括：

6.一种视频内容的显示方法，其特征在于，包括：

播放视频；

根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示，其中，所述视频标注标签通过权利要求1-5任一项所述的方法建立。

7.根据权利要求6所述的方法，其特征在于，根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示包括：

如果播放的视频的当前时间节点存在对应的视频标注标签，将与所述视频标注标签对应的标注信息加入到与匹配信息中位置信息相适应的视频图像中进行显示，或者将与所述视频标注标签对应的标注信息加入到当前播放的视频图像的边界位置进行显示；

8.一种视频标签的建立装置，其特征在于，包括：

标注标签建立单元，用于根据所述匹配信息，在所述视频中为所述待匹配对象建立视频标注标签；

所述匹配信息获取单元具体用于：

获取所述待匹配对象的关联匹配对象；

在所述关联图像帧集合中查找包括所述待匹配对象的至少一个匹配图像帧，并获取相应的匹配信息,

或者，所述匹配信息获取单元具体包括：

9.根据权利要求8所述的装置，其特征在于：所述匹配信息获取单元还用于，获取所述待匹配对象在所述匹配图像帧中的位置信息作为与所述匹配图像帧对应的匹配信息。

10.根据权利要求8所述的装置，其特征在于，所述待匹配对象为服饰，所述关联匹配对象为人脸，其中，所述人脸与所述视频中穿戴所述服饰的视频人物相对应。

11.根据权利要求8所述的装置，其特征在于，所述匹配子单元具体用于：

12.一种视频内容的显示装置，其特征在于，包括：

视频播放单元，用于播放视频；

标注信息显示单元，用于根据所述视频中视频标注标签的匹配信息，将与所述视频标注标签对应的标注信息在视频图像中进行显示，其中，所述视频标注标签通过权利要求8-11任一项所述的装置建立。