CN104217008A

CN104217008A - 互联网人物视频交互式标注方法及***

Info

Publication number: CN104217008A
Application number: CN201410475211.0A
Authority: CN
Inventors: 陈智能; 白锦峰; 冯柏岚; 黄向生; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-09-17
Filing date: 2014-09-17
Publication date: 2014-12-17
Anticipated expiration: 2034-09-17
Also published as: CN104217008B

Abstract

本发明公开了一种互联网人物视频交互式标注方法和***，所述方法包括：提取待标注视频中的人脸序列和周边文本中的人名；以人名为文本关键词，利用搜索引擎获得相应人物网络图像集合；计算人脸序列的重要性得分，人脸序列的两两合并推荐得分，以及人脸序列与人物网络图像的相似性，根据上述性质，确定标注时予以显示的人脸序列、人名及人物网络图像；通过多种用户交互操作，产生相应标注行为，实现对视频中人物的标注。本发明通过挖掘多种与待标注视频及人物相关的资源，并设计友好多样的用户交互方式，可简化标注过程，辅助标注决策，有效缓解标注者不认识待标注人物，导致标注过程难以进行的问题，能够大幅度提高人物视频标注的效率和精度。

Description

互联网人物视频交互式标注方法及***

技术领域

本发明涉及视频智能分析技术领域，更具体的说，涉及一种互联网人物视频交互式标注方法及***。

背景技术

随着互联网技术的发展和视频在线分享行为的流行，大量专业和非专业的视频被生产制作出来，上传到互联网，并被世界各地的用户所浏览和观看。由于这类视频通常嵌入在互联网网页内对外提供在线播放服务，因此被统称为互联网视频。人是互联网视频最受关注的主题之一。视频网站中有大量热点视频涉及到人，特别是名人，此外，名人的名字也一直是视频搜索引擎热门查询词的重要组成部分。

虽然互联网人物视频广受关注，但在大规模互联网视频库中寻找感兴趣的人物视频并不是一件容易的事情。目前主流的视频搜索引擎都是通过文本关键词匹配的方法实现视频检索。对人物视频来说，这种检索方法存在如下三个方面的不足：1)互联网视频的周边文本(例如标题、标签和用户评论)通常是不完整和带有噪声的，有人出现的视频并不一定标注了该人的名字，与此对应，标注了某人名字的视频中该人不一定会出现，导致视频搜索只能找到一部分相关的视频，且检索结果中通常存在一定比例的噪声；2)周边文本是对整个视频而不是视频内片段的描述，根据人名直接定位到该人出现的视频片段仍然是主流视频网站目前所不能提供的服务，而这种服务对用户浏览视频而言无疑可以提供很大的便利；3)检索结果列表中，出现在前面的视频通常并不是最相关的，因为仅根据人名是否出现难以得到准确的查询相关度判断。因此，产业界迫切需要更加智能有效的人物视频检索、浏览和排序方法。

解决上述问题的一个关键在于为视频中出现的人脸标注其相应的人名。换句话说，建立视频中人脸到周边文本中人名的映射关系，这一任务被一般化的称为人脸标注。虽然人脸检测和人名识别已经是比较成熟的技术，但人脸标注，特别是在人脸角度、面部表情、光照、遮挡等不受限制情况下的标注仍然是一个极具挑战的课题。在过去的数年中，针对新闻视频、电影电视剧等特定类型的视频，已经有一些有效的人脸标注方法被提出来。这些方法虽然实现上各有不同，但基本都采用了多模态信息融合的技术路线。首先，它们从新闻讲稿、语音转录文本或互联网等外部渠道获得视频所涉及主要人物(如电影的主要角色)的名字，以及视频的剧本和字幕文本，通过利用新闻讲稿或对齐剧本和字幕，得到特定人物在视频特定时间点的说话内容。同时根据视频中所检测人脸的时间点，初步建立人脸与人名的映射关系，进而利用人脸间的视觉相似性，对这一关系予以精化从而实现标注。由于新闻讲稿、剧本和字幕文本通常可以提供较为丰富和具体的人名和人物出现线索，且电影电视剧等涉及的主要人物数量通常也较为有限，上述方法可以以较高的精度实现对特定新闻节目、电影电视剧中主要人物的全自动标注。

然而，互联网视频不同于电影电视剧。互联网视频的网页上虽然也有一些文本信息，但这些文本通常数量有限、不够准确、而且没有得到较好的组织。此外，它们出现在整个视频层次，不像字幕文本那样带有时间戳信息。这些特性决定了上述依赖富文本信息挖掘的方法难以直接推广到互联网视频上。此外，互联网视频内容包罗万象，视频可能涉及的人物涵盖社会生活的方方面面，数量极多，即使是只关注其中的名人，其数量也不是一个小数字。目前，针对大规模开放式互联网视频的人脸自动标注工作仍处在预研阶段。由于难以达到较好的标注效果，目前这方面并没有成熟的方法和***面世。

随着海量互联网视频沉淀在视频网站，且新视频数量还在以更快的速度增加，人物视频标注又成为摆在学术界和产业界面前一个不得不解决的问题。因此，将人引入到标注环节，以提高标注准确性为目标的交互式标注方法开始受到关注。在对天空、草地，建筑等一般性视觉概念的标注上，目前已经有一些有效的交互式标注方法被提出来，但这些方法并不能直接应用到区别标注不同人这一课题上来。究其原因，人工标注上述一般性的视觉概念是较为容易实现的，因为大部分时候仅通过常识即可区分这些概念，但对区别标注不同人物来说，即使是经验丰富的标注者，通常也只认识世界上非常少的人，而人是无法为自己不认识的人标注人名的。若像现有交互式标注***一样，仅将包含人物的图像或视频帧及(多个)相关人名提交给标注用户，由于很大可能不认识待标注人物，用户很难像标注一般视觉概念那样去标注人物，即使需要标注的都是名人。在交互式人物标注特别是视频人物标注这一方面，目前相关的成果还非常少见。

注意到人在图像或视频中看到不认识的人时，为弄清楚他/她是谁，采取的解决方案通常是：从周边文本中寻找人名，用找到的人名作为关键词，利用图像搜索引擎进行检索，然后通过比较搜索引擎返回的结果图像和所看图像中的人，得出图像中人是谁的判断。上述方案采用的基于文本关键词的图像检索，虽然目前也有少数“以图搜图”的检索***，但由于搜索目标是特定人物的图像，并不要求所有结果图像与查询图像在视觉上高度相似，且视频人脸的视觉表观变化大、分辨率通常较低，也对“以图搜图”***的精度带来挑战，这一任务上目前主要采取的还是基于文本关键词的搜索方法。由于通过搜索引擎可以找到大量的人物图像特别是名人的，上述方案很多时候不失为一种有效的帮助用户了解之前不认识人物的方法。

人的上述做法自然可以借鉴到人物视频的交互式标注方法和***的设计上来。标注者在进行人物标注时，同样会遇到不认识的人而不得不暂停标注，通过求助于搜索引擎等外部工具了解该人，进而继续推进标注过程。由于需要在标注和搜索比对操作中频繁切换，这一过程无疑是低效和繁琐的。若能通过文本解析和视觉分析技术，提取视频周边文本中的人名，获取相关人物网络图像并在标注过程中予以相应显示；与此同时，对视频中的人脸进行分析和处理，并以易于标注的方式展现出来，使标注者既无需切换到搜索引擎去了解待标注的人物，看到的又是更易加于决策的标注方式和经过组织并友好呈现的视频人脸图像，这样无疑可以简化标注过程，显著提高人物视频标注的效率和精度。然而，在公开的专利数据库中检索时并没有查询到专门针对视频中人物的交互式标注方法和***，上述背景和认识正是本发明产生动机和原因。

发明内容

本发明针对互联网人物视频标注时，由于标注者极有可能不认识待标注人物，导致标注过程难以进行的情况，提出一种互联网人物视频交互式标注方法及***，通过挖掘多种与待标注视频及人物相关的资源，并设计友好多样的用户交互方式，简化标注过程，辅助标注决策，提高人物视频标注的效率和精度，进而促进互联网人物视频的检索、浏览和排序服务水平的提升。

为实现上述目的，本发明提供一种互联网人物视频交互式标注方法，包括以下步骤：

S1、对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合；

S2、以步骤S1得到的人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合；

S3、计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与步骤S2得到的与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像；

S4、根据步骤S3显示的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频的标注。

本发明还提出一种互联网人物视频交互式标注***，包括：

用于对待标注视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合的装置；

用于以所述人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物的网络图像集合的装置；

用于计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像的装置；

用于显示要标注的人脸序列、人名及人物网络图像，对人脸序列进行交互标注，进而实现对所述视频进行标注的装置。

本发明通过挖掘多种与待标注视频及人物相关的有助于标注的资源并相应设计友好多样的用户交互方式，可简化标注过程，辅助标注决策，有效缓解标注者不认识待标注人物，导致标注难以进行的问题。利用本发明，能够大幅度提高互联网人物视频标注的效率和精度，进而促进互联网人物视频的检索、浏览和排序服务水平的提升。

附图说明

图1为依照本发明实施例的一种互联网人物视频交互式标注方法的流程图；

图2为依照本发明实施例的一种互联网人物视频交互式标注***截图及相关模块说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，本发明的互联网人物视频交互式标注方法包括以下步骤：

S1、对视频进行分析，提取该视频中的人脸序列集合和视频周边文本中的人名集合；

根据本发明的优选实施例，对视频进行分析，提取该视频中的人脸序列和视频周边文本中的人名的步骤S1的具体过程为：

步骤S11、对所述视频进行镜头分割，对每个得到的镜头进行人脸检测和跟踪，获得该镜头中的人脸序列，综合所有镜头得到的人脸序列，得到该视频的人脸序列集合；

具体实施时，首先对待标注的互联网人物视频进行镜头边界检测，根据镜头边界点将视频分解为镜头集合；然后调用计算机视觉开源库OpenCV的人脸检测函数对每个镜头进行逐帧人脸检测；接下来，采用基于检测的跟踪方法将不同视频帧上检测到的属于同一个人的人脸聚集起来，生成人脸序列。对所有镜头重复上述人脸序列的生成过程，得到该视频所有检出的人脸序列集合其中FN代表人脸序列的数量。

基于检测的跟踪方法生成人脸序列的步骤为：首先，根据人脸检测结果，提取每个人脸的颜色直方图特征，并依此计算人脸的两两相似度。然后，将人脸的两两相似度从大到小排序，采用凝聚式聚类方法，将满足如下四个条件的人脸进行两两合并，四个条件具体为：1)人脸的两两相似度大于预先设定的合并阈值；2)由合并前两个人脸所在人脸类中所有人脸组成的人脸集合中，没有任何两个人脸出现在同一个视频帧；3)两个人脸的出现间隔不超过1秒；4)两个人脸中心点坐标的距离不大于2.5倍人脸宽度。重复上述合并过程直至不再有两个人脸同时满足上述四个条件，得到人脸聚类结果。最后，将属于同一个类的人脸按(视频帧)出现时间排序，用插值的方法补充人脸检测过程漏掉的人脸，生成完整的人脸序列。每个人脸序列中的所有人脸都属于同一个人。

以上是本发明一种实施方式的人脸序列获取方法。当然，也可以使用其它人脸检测和跟踪方法获取人脸序列，本发明对于人脸序列的获取方法不做任何限制。

步骤S12、获取所述人脸序列集合中的每个人脸序列的代表性人脸图像。

一种实施方式是，对每个人脸序列，例如F_k，下标k表示人脸序列集合中的第k个人脸序列，设它有t个人脸，提取这t个人脸的颜色直方图特征，依此计算人脸两两相似度矩阵其中为第i和第j个人脸的相似度，令为T_k中所有人脸相似度的平均值，采用仿射传播(Affinity Propagation)聚类算法对这t个人脸进行自适应聚类。设聚类生成|F_k|个类，则F_k可以表示为它的代表性人脸图像集合其中是离第i个类中心点最近的人脸图像。其中，i为小于t的自然数。

当然，也可以使用其它方法获取人脸序列的代表性人脸图像，本发明对于人脸序列的代表性人脸图像的获取方法不做任何限制。

步骤S13、收集视频周边文本，从该视频周边文本中提取人名。

所述视频周边文本是指互联网视频所在网页上，与视频相关的文字内容，其包括但不限于：视频标题、标签、描述文字和用户评论。考虑到不同类型的周边文本的相关性和噪声程度各不相同，本发明仅考虑视频标题、标签和长度超过20个单词的用户评论。

具体地，对于周边文本为英文的情况(如英文视频网站的周边文本)，采用了一种基于***人名词典匹配的人名提取方法。对上述文本中的连续单词序列，该方法从第一个单词开始，依次测试n元(n＜4)单词序列组成的词组是否构成一个维基词条，若构成，则保留n最大的维基词条，并从第n+1个单词开始继续上述测试。通过该方法，可以在连续的单词序列中发现“Barack Obama”和“World Cup 2014”等维基词条。在标题、标签和评论集合上重复上述解析过程，获得维基词条集合后。该方法一一验证这些维基词条是否是人名。具体地，检查维基词条所在维基页面的类别描述部分，查询其中是否存在形式为“xxxx births”的描述类别，其中xxxx为代表年份的四个或三个数字。若存在，则判定该维基词条为人名，否则判定为其它命名实体并予以忽略。

前面介绍的是英文文本的处理方法，对于视频周边文本为中文的情况，首先利用中文分词工具ICTCLAS进行中文分词，然后再采用上述基于***人名词典匹配的人名提取方法进行人名提取即可(维基类别描述部分的判断准则相应变为是否存在形式为“xxxx年出生”的描述类别)。通过上述处理，可得到该视频的相关人名集合其中N_k代表第k个提取到的人名，CN代表所提取人名的数量。

由于互联网视频的周边文本通常由视频上传用户提供，文本的句法结构松散、单词搭配较为自由，拼写错误和简写也屡见不鲜。上述基于***人名词典匹配的人名提取方法不依赖于句法结构，且对拼写错误和简写有一定容错度，特别适合于互联网视频周边文本中的人名提取。当然，也可以使用其它人名提取方法，本发明对于人名提取方法不做任何限制。

步骤S2为以步骤S1得到的人名集合中的人名为文本关键词，搜索以获得与所述人名相应的人物网络图像集合，其具体包括如下步骤：

步骤S21、以步骤S1得到的人名集合中的人名为文本关键词，在网络上搜索并下载与所述文本关键词相关的图像。

具体来说，可以利用现有的图像搜索引擎，比如调用Google提供的应用程序接口，将文本关键词提交到Google图像搜索引擎，并设置搜索参数为检索64幅包含人脸的图像，该设置下，Google图像搜索引擎会将检索结果排序在前64位的人物图像的统一资源定位符(即URL地址)返回到检索端，检索端进而根据URL地址下载相应图像。也就是说，在所有图像都可以正常下载的理想情况下，这一步骤可以得到64个搜索结果图像。实际中，每个人名可以下载到的图像通常在50到64之间。

步骤S22、对所述下载的与所述文本关键词相关的图像进行人脸检测，滤除没有检测到人脸的或检测到多于一个人脸的图像。

例如，可以调用计算机视觉开源库OpenCV的人脸检测函数，对下载成功的人物图像进行人脸检测。人脸检测函数的返回结果可以是：没有检测到人脸、检测到1个或多个人脸。由于检测到多个人脸的图像中除查询人外，通常还会包括其它人物的人脸，进而在标注的参考比较过程中会干扰标注者的判断，因此该步骤仅保留检测到1个人脸的图像，没有检测到人脸和检测到多个人脸的图像则予以去除；

步骤S23、对所述人名集合中的所有人名重复上述步骤S21和步骤S22，得到与所述人名集合中每个人名对应的人物网络图像集合。

人物网络图像集合可记为其中C_k表示所有与人名N_k对应的人物网络图像。

为方便对具体实施方式的后续说明。首先对本发明的***组成进行简单介绍。图2给出了上述交互式标注***的截图，可以看到，***界面分为管理区域、标注区域、标注参考区域和标注历史区域四个部分。管理区域供标注者交互选择待标注视频，载入所选择视频的人脸序列名称和相关人名。标注区域可进一步分为相似人脸合并/区别标记子区域和人名-人脸关联标记子区域，分别用来显示当前待标注的相似人脸序列组合Q_i＝＜F_m，F_n＞和人脸序列F_j，以及执行相应的交互标注操作。此外，与人名-人脸关联标记子区域中所显示人脸序列最相似的人名和它的前六幅人物网络图像则相应显示在标注参考区域。最右边的标注历史区域则按标注顺序显示已标注的人名-人脸二元组，其中最新标注的二元组显示在最上方。标注参考区域和标注历史区域的功能主要是作为辅助信息帮助标注者参考决策。

步骤S3为计算所述人脸序列的重要性得分、所述人脸序列的两两合并推荐得分，以及所述人脸序列与步骤S2得到的与所述人名相应的人物网络图像的相似性得分，并根据所述重要性得分、所述两两合并推荐得分和所述相似性得分，确定对所述视频进行标注时，予以显示的人脸序列、人名及人物网络图像。该步骤S3包括如下分步骤：

步骤S31、计算所述人脸序列集合中每个人脸序列的显著性值。

由于出现时间越长、人脸越大的人脸序列在视频越容易引起人们的注意，是视频核心人物的概率也越大。本发明将人脸序列的这种性质称为显著性，并提出了如下的显著性值计算公式：

Sai (F_{i}) = e^{- \frac{{size}_{θ}}{{size}_{i}}} + e^{- \frac{{dura}_{θ}}{{dura}_{i}}} - - - (1)

其中，size_i和dura_i分别是人脸序列F_i的平均人脸大小和出现时间长度，size_θ和dura_θ是两个根据经验设置的阈值，分别用来控制人脸大小和出现时间对显著性计算的影响。通过公式(1)，出现时间长、平均人脸大的人脸序列将会有较大的显著性值。

步骤S32、计算所述人脸序列集合中人脸序列之间的两两相似性。

由于视频中，出现时间有重叠的两个人脸序列通常对应不同的人，但出现时间间隔较短的人脸序列则可能是同一个人因为镜头切换等原因，生成的不同人脸序列。基于上述认识，提出根据人脸序列的两两视觉相似性、人脸序列出现时间间隔、出现时间是否存在重叠等信息，计算人脸序列的两两相似性，相应计算公式为：

sim (F_{i}, F_{j}) = e^{- \frac{{Δtime}_{i, j}}{{time}_{θ}}} \cdot (1 - {CO}_{i, j}) \cdot vs (F_{i}, F_{j}) - - - (2)

其中，time_θ是用来控制出现时间差值影响的阈值，Δtime_i，j是人脸序列F_i和F_j的出现时间差值，通过如下公式(3)计算：

\{\begin{matrix} {time}_{j}^{beg} - {time}_{i}^{end}, & if & {time}_{i}^{beg} \leq {time}_{j}^{beg} \\ {time}_{i}^{beg} - {time}_{j}^{end}, & if & {time}_{j}^{beg} \leq {time}_{i}^{beg} \end{matrix} - - - (3)

公式(3)中，和分别是人脸序列F_i出现的开始时间和结束时间，时间值小表明人脸序列出现在视频的前面(开始)部分。此外公式(2)中，CO_i，j是表示人脸序列F_i和F_j出现时间是否有重叠的二值函数，若二者有重叠，则CO_i，j＝1，否则CO_i，j＝0；vs(F_i，F_j)是人脸序列F_i和F_j的视觉相似性，用两个人脸序列的代表性人脸集合中，最相似的两个人脸的相似度表示，其计算公式为：

vs (F_{i}, F_{j}) = e^{{- \min}_{f_{i}^{m} &Element; F_{i}, f_{j}^{n} &Element; F_{j}, i &NotEqual; j} | | f_{i}^{m} - f_{j}^{n} | |} - - - (4)

公式(4)中，是人脸序列F_i的第m个代表性人脸的面部特征向量。

步骤S33、根据步骤S32得到的人脸序列两两相似性和标注时的用户交互信息，计算人脸序列的两两合并推荐得分。

具体可利用如下公式计算：

MS(F_i，F_j)＝(1-PM_i，j)·sim(F_i，F_j) (5)

其中PM_i，j是表示人脸序列F_i和F_j的组合是否在标注过程中，被用户“跳过”或标注为“不同”。若是则PM_i，j＝1，否则PM_i，j＝0。根据公式(5)，相似性高，且在用户标注过程中未被用户“跳过”或标注为“不同”的人脸序列两两组合将被赋予大的两两合并推荐得分。基于此，将所有得分大于等于预先给定阈值的人脸序列组合按照MS(F_i，F_j)值从高到低排列，得到两两合并推荐得分列表其中Q_k＝＜F_i，F_j＞_i≠j。在标注过程中，图2***中的相似人脸序列合并\区别标记子区域将根据Rank_MS显示待标注人脸序列两两组合。

步骤S34、利用步骤S31得到的人脸序列显著性值，步骤S32得到的人脸序列两两相似性得分和标注时的用户交互信息，计算人脸序列的重要性得分。

人脸序列的重要性表示综合考虑多种人脸序列、所述视频和用户交互的信息后，人脸序列值得标注的程度，其可以利用下列公式(6)来计算：

IS (F_{i}) = (1 - {PA}_{i}) \cdot (\overset{&OverBar;}{{Sai}_{i}} + \overset{&OverBar;}{{AR}_{i}}) - - - (6)

其中PA_i是表征人脸序列F_i是否在标注过程中被用户“跳过”，若是则PA_i＝1，否则PA_i＝0；和分别是最大最小归一化后的显著性Sai_i和累积相关性AR_i，后者定义为：

{AR}_{i} = Σ_{j = 1, j &NotEqual; i}^{FN} L_{j} \cdot sim (F_{i}, F_{j}) - - - (7)

其中，L_j是人脸序列F_j标注状态函数。若F_i已被标注，则L_j＝1，否则L_j＝0。根据公式(6)，显著性值大，与多个已标注人脸都比较相似，且在用户标注过程中未被“跳过”的人脸序列将被赋予大的重要性得分。

基于此，将人脸序列按照重要性得分IS(F_i)从高到低排列，得到重要性得分列表在标注过程中，图2***中的人名-人脸关联标记子区域将依据Rank_IS显示待标注人脸序列。

步骤S35、计算所述人脸序列集合中人脸序列与所述人物网络图像集合中的人物网络图像的相似度，按相似度的高低进行排序，得到排序后的人名列表以及每个人名的K个最相似人物网络图像。本发明中，K的值设置为6。

该步骤主要解决交互式标注过程中，标注者经常会遇到不认识待标注人物的情况。通过在标注***展示上述人名和人物网络图像，缓解标注者不认识待标注人物的问题。具体地，在人名-人脸关联标记子区域中显示的人脸序列确定后，将与其最相似的人名及其K个最相似人物网络图像展示出来，供标注者参考比对，辅助确定待标注人脸序列所对应的人名。该步骤的计算包括如下三个子步骤：

步骤S351、计算所述人脸序列集合中人脸序列与所述人名集合中人名的两两相似性。人名的视觉特性可通过其对应的人物网络图像表示。基于此，通过如下公式(8)计算人脸序列F_i和人物网络图像集合C_j的相似性，并用该相似性作为人脸序列F_i和人名N_j的相似性：

vs (F_{i}, N_{j}) = vs (F_{i}, C_{j}) = \frac{1}{| C_{j} |} Σ_{n = 1}^{| C_{j} |} vs (F_{i}, c_{j}^{n}) - - - (8)

其中

vs (F_{i}, c_{j}^{n}) = e^{{- \min}_{f_{i}^{m} &Element; F_{i}} | | f_{i}^{m} - c_{j}^{n} | |} - - - (9)

是人名N_j对应的人物网络图像集合C_j中第n个图像的人脸面部特征向量；

步骤S352、根据步骤S351计算得到的相似性，对所述人名进行排序。通常，人脸序列F_i和人名N_j的相似性值vs(F_i，N_j)越大，则F_i是N_j的人脸的概率也越大。基于此，根据vs(F_i，N_j)值从高到低对人名集合Ω_N进行排序，得到人脸序列F_i对应的人名序列

步骤S353、计算人脸序列相对于每个人名的K个最相似人物网络图像。从公式(9)可以看到，人物网络图像中与人脸序列的相似度由该图像与最相似的人脸序列代表性人脸表示。因此，对每组人脸序列F_i和人名N_j，根据值从高到低对C_j中的人物网络图像进行排序，保留K个最相似的图像，得到人脸序列F_i相对于人名N_j的人物网络图像列表

Rank (F_{i}, F_{j}) = {c_{k}}_{k = 1}^{K},

其中K设定为6；

根据本发明的优选实施例，步骤34得到的人脸序列重要性得分列表以及步骤35得到的人脸序列F_i对应的相似人名列表和相似人物网络图像列表通过多种用户交互操作，产生相应标注行为，实现对视频中人物的标注的具体过程如下所述步骤S4具体包括：

步骤S41、初始化标注过程涉及的各种资源。

具体做法为：

S411、令

{{PA}_{k} = 0}_{k = 1}^{FN},

{{PM}_{m, n} = 0}_{m = 1, n = 1, m &NotEqual; n}^{FN},

ULSets = {F_{k}}_{k = 1}^{FN};

S412、自动标注满足公式(10)所示条件的人脸序列组合Q_i＝＜F_m，F_n＞，并将所有已标注组合从Rank_MS列表中移出

Label(F_i)＝Label(F_j)，if satisfies vs(F_i，F_j)≥T_s (10)

其中if satisfies表示“若满足”，T_s是表示两个人脸序列视觉上是否足够相似的阈值。

S413、从Rank_MS和Rank_IS中分别取出排名最高的元素Q_i＝＜F_m，F_n＞和F_j，即当前两两合并得分最高的人脸序列组合和重要性得分最高的人脸序列，将这些资源在标注***中予以显示；

S414、取出Rank(F_j)中排名最高的人名以及中的K个图像，将这些资源在标注***中予以显示。

步骤S42、根据多种用户交互操作，产生相应标注行为。

用户交互操作有三类：1)将***中显示的人脸序列组合Q_i＝＜F_m，F_n＞标记为“相同”或“不同”的相似人脸合并/区别标记操作；2)选择特定人名标记人脸序列F_j的人名-人脸关联标记操作；3)选择不同人名及其人物网络图像，供标注者参考的操作。这三类操作中，第三类是标注辅助操作，目的是提供信息辅助用户标注决策，第二类操作会为F_j标记上相应人名，并将其从未标注人脸序列集合ULSets中移出。这三类交互操作对应的标注行为分别是：

1)相似人脸合并/区别标记操作对应的标注行为：

a)若用户用“相同”选项标注Q_i，则令Label(F_m)＝Label(F_n)，其中Label(F_m)表示人脸序列F_m对应的人名；

b)若用户用“不同”选项标注Q_i，则令Label(F_m)≠Label(F_n)，同时令PM_m，n＝1；

c)若用户对Q_i选择“跳过”选项，则令PM_m，n＝1；

2)人名-人脸关联标记操作对应的标注行为：

a)若用户选择用人名N_k标记F_j，则令ULSets＝ULSets\F_j，Label(F_j)＝N_k；

b)若用户选择“跳过”对F_j的标注，则令PA_j＝1；

3)人名及人物网络图像选择操作对应的行为：

a)若用户点击“前一个”选项，则令k＝k-1(当k＞1时)，显示人名以及人物网络图像列表中的K个图像；

b)若用户点击“后一个”选项，则令k＝k+1(当k＜CN时)，显示人名以及人物网络图像列表中的K个图像。

步骤S43、利用标签传播算法对其它未标注人脸序列进行标注。

由于用户的交互标注行为提供了额外的标注线索。因此，利用标签传播算法对满足如下公式(11)或(12)所述条件的其它未标注人脸序列F_i进行自动标注；

\{\begin{matrix} Label (F_{i}) = N_{k} \\ ULSets = ULSERS \ {F_{i}}^{,} \end{matrix} if satisfies \{\begin{matrix} F_{i} &Element; ULSets \\ vs (F_{i}, F_{j}) &GreaterEqual; T_{s} \\ Label (F_{j}) = N_{k} \end{matrix} - - - (11)

Label (F_{i}) = Label (F_{j}), if satisfies \{\begin{matrix} F_{i} &Element; ULSets \\ F_{j} &Element; ULSets \\ vs (F_{i}, F_{j}) &GreaterEqual; T_{s} \end{matrix} - - - (12)

其中T_s是公式(10)定义的相似度阈值。

步骤S44、对两两合并推荐得分列表和重要性得分列表进行整理和重排序，决定下一轮用户标注时予以呈现的资源。

通过步骤S42和步骤S43，两两合并推荐得分列表Rank_MS和重要性得分列表Rank_IS中的一些人脸序列被标注。该步骤根据标注结果，对Rank_MS和Rank_IS进行整理和重排序，决定下一轮用户标注时予以呈现的资源。上述整理和重排序的具体做法分别为：

1)整理：将Rank_MS和Rank_IS中满足如下公式(13)、(14)或(15)所述条件的元素Q_i＝＜F_m，F_n＞和F_j分别移出：

{Rank}_{MS} = {Rank}_{MS} \ Q_{i}, if satisfies \{\begin{matrix} F_{m} &Element; ULSets \\ F_{n} &Element; ULSets \end{matrix} - - - (13)

Rank_MS＝Rank_MS\Q_i，if satisfies Label(F_m)＝Label(F_n) (14)

Rank_IS＝Rank_IS\F_j，if satisfies (15)

2)重排序：对Rank_MS和Rank_IS中剩下的元素，分别利用公式(6)和(5)重新计算其两两合并推荐得分和重要性得分，并根据得分重新排序生成Rank_MS和Rank_IS列表，作为下一轮交互标注时资源显示的依据。

步骤S45、重复步骤S42到步骤S44，直至所有未标注人脸序列都被标注(即)，或者是用户主动退出标注过程。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网人物视频交互式标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

步骤S12、获取所述人脸序列集合中的每个人脸序列的代表性人脸图像；

3.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

步骤S21、以步骤S1得到的人名集合中的人名为文本关键词，在网络上搜索并下载与所述文本关键词相关的图像；

步骤S22、对所述下载的与所述文本关键词相关的图像进行人脸检测，滤除没有检测到人脸的或检测到多于一个人脸的图像；

4.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

步骤S31、计算所述人脸序列集合中每个人脸序列的显著性值；

步骤S32、计算所述人脸序列集合中人脸序列之间的两两相似性；

步骤S33、据步骤S32得到的人脸序列两两相似性和标注时的用户交互信息，计算人脸序列的两两合并推荐得分；

步骤S34、利用步骤S31得到的人脸序列显著性值，步骤S32得到的人脸序列两两相似性得分和标注时的用户交互信息，计算人脸序列的重要性得分；

步骤S35、计算所述人脸序列集合中人脸序列与所述人物网络图像集合中的人物网络图像的相似度，按相似度的高低进行排序，得到每个人脸序列排序后的人名列表以及每个人名的K个最相似人物网络图像。

5.根据权利要求4所述的方法，其特征在于，所述步骤S31中人脸序列F_i的显著性通过如下公式(1)计算：

Sai (F_{i}) = e^{- \frac{{size}_{θ}}{{size}_{i}}} + e^{- \frac{{dura}_{θ}}{{dura}_{i}}} - - - (1)

其中，size_i和dura_i分别是人脸序列F_i的平均人脸大小和出现时间长度，size_θ和dura_θ是两个根据经验设置的阈值，分别用来控制人脸大小和出现时间对显著性计算的影响。

6.根据权利要求4所述的方法，其特征在于，所述步骤S32中人脸序列的两两相似性通过如下公式(2)计算：

sim (F_{i}, F_{j}) = e^{- \frac{{Δtime}_{i, j}}{{time}_{θ}}} \cdot (1 - {CO}_{i, j}) \cdot vs (F_{i}, F_{j}) - - - (2)

\{\begin{matrix} {time}_{j}^{beg} - {time}_{i}^{end}, & if & {time}_{i}^{beg} \leq {time}_{j}^{beg} \\ {time}_{i}^{beg} - {time}_{j}^{end}, & if & {time}_{j}^{beg} \leq {time}_{i}^{beg} \end{matrix} - - - (3)

公式(3)中，和分别是人脸序列F_i出现的开始时间和结束时间，时间值小表明人脸序列出现在视频的前面(开始)部分；

公式(2)中，CO_i，j是表示人脸序列F_i和F_j出现时间是否有重叠的二值函数，若二者有重叠，则CO_i，j＝1，否则CO_i，j＝0；vs(F_i，F_j)是人脸序列F_i和F_j的视觉相似性，用两个人脸序列的代表性人脸集合中，最相似的两个人脸的相似度表示，其计算公式为：

vs (F_{i}, F_{j}) = e^{{- \min}_{f_{i}^{m} &Element; F_{i}, f_{j}^{n} &Element; F_{j}, i &NotEqual; j} | | f_{i}^{m} - f_{j}^{n} | |} - - - (4)

7.根据权利要求4所述的方法，其特征在于，所述步骤S33中人脸序列的两两合并推荐得分通过如下公式(5)计算：

MS(F_i，F_j)＝(1-PM_i，j)·sim(F_i，F_j) (5)

其中PM_i，j是表示人脸序列F_i和F_j的组合是否在标注过程中，被用户“跳过”或标注为“不同”；若是则PM_i，j＝1，否则PM_i，j＝0；根据公式(5)，相似性高，且在用户标注过程中未被用户“跳过”或标注为“不同”的人脸序列两两组合将被赋予大的两两合并推荐得分；基于此，将所有得分大于等于预先给定阈值的人脸序列组合按照MS(F_i，F_j)值从高到低排列，得到两两合并推荐得分列表其中Q_k＝＜F_i，F_j＞_i≠j。

8.根据权利要求4所述的方法，其特征在于，所述步骤S34中人脸序列的重要性得分通过如下公式(6)计算：

IS (F_{i}) = (1 - {PA}_{i}) \cdot (\overset{&OverBar;}{{Sai}_{i}} + \overset{&OverBar;}{{AR}_{i}}) - - - (6)

{AR}_{i} = Σ_{j = 1, j &NotEqual; i}^{FN} L_{j} \cdot sim (F_{i}, F_{j}) - - - (7)

其中，L_j是人脸序列F_j标注状态函数；若F_i已被标注，则L_j＝1，否则L_j＝0，

将人脸序列按照重要性得分IS(F_i)从高到低排列，得到重要性得分列表

{Rank}_{IS} = {F_{i}}_{i = 1}^{FN} .

9.根据权利要求4所述的方法，其特征在于，所述步骤S35包括以下步骤：

步骤S351、计算所述人脸序列集合中人脸序列与所述人名集合中人名的两两相似性；

步骤S352、根据步骤S351计算得到的相似性，对所述人名进行排序；

步骤S353、计算人脸序列相对于每个人名的K个最相似人物网络图像。

10.根据权利要求9所述的方法，其特征在于，

所述步骤S351通过如下公式(8)计算人脸序列F_i和人物网络图像集合C_j的相似性，并用该相似性作为人脸序列F_i和人名N_j的相似性：

vs (F_{i}, N_{j}) = vs (F_{i}, C_{j}) = \frac{1}{| C_{j} |} Σ_{n = 1}^{| C_{j} |} vs (F_{i}, c_{j}^{n}) - - - (8)

其中

vs (F_{i}, c_{j}^{n}) = e^{{- \min}_{f_{i}^{m} &Element; F_{i}} | | f_{i}^{m} - c_{j}^{n} | |} - - - (9)

是人物网络图像集合C_j中第n个图像的人脸面部特征向量。

11.根据权利要求10所述的方法，其特征在于，

所述步骤S352对每个人脸序列F_i，根据vs(F_i，N_j)值从高到低对人名进行排序，得到人名序列

12.根据权利要求11所述的方法，其特征在于，

所述步骤S353对每组人脸序列和人名，例如F_i和N_j，根据值从高到低对C_j中的人物网络图像进行排序，保留K个最相似的图像，得到与F_i和N_j对应的人物网络图像列表

13.根据权利要求1所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S41、初始化标注过程涉及的各种资源；

步骤S42、根据多种用户交互操作，产生相应标注行为；

步骤S43、利用标签传播算法对其它未标注人脸序列进行标注；

步骤S44、对两两合并推荐得分列表和重要性得分列表进行整理和重排序，决定下一轮用户标注时予以呈现的资源；

步骤S45、重复步骤S42到步骤S44，直至所有未标注人脸序列都被标注。

14.根据权利要求13所述的方法，其特征在于，所述步骤S41包括：

S411、令

{{PA}_{k} = 0}_{k = 1}^{FN},

{{PM}_{m, n} = 0}_{m = 1, n = 1, m &NotEqual; n}^{FN},

ULSets = {F_{k}}_{k = 1}^{FN};

Label(F_i)＝Label(F_j)，if satisfies vs(F_i，F_j)≥T_s (10)

其中if satisfies表示“若满足”，T_s是表示两个人脸序列视觉上是否足够相似的阈值；

15.根据权利要求13所述的方法，其特征在于，所述步骤S42中多种用户交互操作包括：1)将***显示的人脸序列组合Q_i＝＜F_m，F_n＞标记为“相同”或“不同”的相似人脸合并/区别标记操作；2)选择特定人名标记人脸序列F_j的人名-人脸关联标记操作；3)选择不同人名及其人物网络图像予以显示的交互操作。

16.根据权利要求13所述的方法，其特征在于，所述步骤S42中多种用户交互操作对应的标注行为分别是：

1)相似人脸合并/区别标记操作对应的标注行为：

c)若用户对Q_i选择“跳过”选项，则令PM_m，n＝1；

2)人名-人脸关联标记操作对应的标注行为：

b)若用户对F_j选择“跳过”选项，则令PA_j＝1；

3)人名及人物网络图像选择操作对应的行为：

17.根据权利要求13所述的方法，其特征在于，所述步骤S43对满足一定条件的其它未标注人脸序列F_i进行自动标注的具体做法如公式(11)或(12)所示：

\{\begin{matrix} Label (F_{i}) = N_{k} \\ ULSets = ULSERS \ {F_{i}}^{,} \end{matrix} if satisfies \{\begin{matrix} F_{i} &Element; ULSets \\ vs (F_{i}, F_{j}) &GreaterEqual; T_{s} \\ Label (F_{j}) = N_{k} \end{matrix} - - - (11)

Label (F_{i}) = Label (F_{j}), if satisfies \{\begin{matrix} F_{i} &Element; ULSets \\ F_{j} &Element; ULSets \\ vs (F_{i}, F_{j}) &GreaterEqual; T_{s} \end{matrix} - - - (12)

其中T_s是公式(10)定义的相似度阈值。

18.根据权利要求13所述的方法，其特征在于，所述步骤S44根据标注结果，对Rank_MS和Rank_IS进行整理和重排序的具体做法为：

1)整理：在Rank_MS和Rank_IS中分别删除满足如下公式(13)、(14)或(15)所述条件的元素Q_i＝＜F_m，F_n＞和F_j：

{Rank}_{MS} = {Rank}_{MS} \ Q_{i}, if satisfies \{\begin{matrix} F_{m} &Element; ULSets \\ F_{n} &Element; ULSets \end{matrix} - - - (13)

Rank_MS＝Rank_MS\Q_i，if satisfies Label(F_m)＝Label(F_n) (14)

Rank_IS＝Rank_IS\F_j，if satisfies (15)

2)重排序：对Rank_MS和Rank_IS剩下的元素，利用公式(6)和(5)重新计算其两两合并推荐得分和重要性得分，并依此重新生成Rank_MS和Rank_IS，作为下一轮交互标注时资源显示的依据。

19.一种互联网人物视频交互式标注***，其特征在于，包括：