CN103218603A - 一种人脸自动标注方法及*** - Google Patents

一种人脸自动标注方法及*** Download PDF

Info

Publication number
CN103218603A
CN103218603A CN2013101154712A CN201310115471A CN103218603A CN 103218603 A CN103218603 A CN 103218603A CN 2013101154712 A CN2013101154712 A CN 2013101154712A CN 201310115471 A CN201310115471 A CN 201310115471A CN 103218603 A CN103218603 A CN 103218603A
Authority
CN
China
Prior art keywords
face
people
sequence
speaker
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101154712A
Other languages
English (en)
Other versions
CN103218603B (zh
Inventor
丁宇新
张逸彬
燕泽权
戴蔚
高德坤
柴光忍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201310115471.2A priority Critical patent/CN103218603B/zh
Publication of CN103218603A publication Critical patent/CN103218603A/zh
Application granted granted Critical
Publication of CN103218603B publication Critical patent/CN103218603B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种人脸自动标注方法及***,首先从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点递延给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;最后,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。本发明的人脸自动标注方法及***,使用方便,准确性高。

Description

一种人脸自动标注方法及***
技术领域
本发明涉及一种人脸标注方法及***,尤其涉及一种进行人脸自动准确标注方法及***。
背景技术
视频人脸标注是视频信息挖掘的一种,现存并通用的技术是使用人工方式进行标注,其标注流程如图1。在传统手工标注的过程中,效率低下,耗时耗力。并且由于存在人为差异可能导致前后标注不一致。现有技术的视频人脸自动标注也只是基本处于实验研究阶段,并没有一个有效、稳定并且能准确自动标注的***出现。
发明内容
本发明解决的技术问题是:构建一种人脸自动标注方法及***,克服现有技术不具备有效、稳定并且能准确的自动标注***的技术问题。
本发明的技术方案是:提供一种人脸自动标注方法,包括如下步骤:
人脸检测:从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻一帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;
说话人脸序列标注:通过唇动检测模块根据人脸序列中说话人的唇动,检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;
未说话人脸序列标注:先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,计算各个未分类的人脸的编码,用PSM方法定位特征,仿射变换,提取人脸特征并归一化后,使用LC-KSVD算法对该序列人脸的提取出的特征进行编码,并与已经学习到的编码字典进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功,视频人脸分类是通过统计的方法进行分类的,完成标注功能。
本发明的进一步技术方案是:在人脸检测步骤中,还包括对截取的人脸图片进行肤色过滤,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
本发明的进一步技术方案是:在人脸检测步骤中,还包括对截取的人脸图片进行唇动过滤,利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
本发明的进一步技术方案是:在获取人脸序列过程中,在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
本发明的进一步技术方案是:建立数据坐标,横轴为时间、纵轴为姓名、坐标为说话内容,将时间、姓名和说话内容三者融合。
本发明的进一步技术方案是:在人脸跟踪过程设置人脸序列长度下限,将错误人脸剔除。
本发明的技术方案是:构建一种人脸自动标注***,包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元,所述人脸检测单元从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;所述未说话人脸序列标注模块读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
本发明的进一步技术方案是:所述未说话人脸序列标注单元还包括分类模块,所述分类模块先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,然后计算各个未分类的人脸的编码,然后进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功。视频人脸分类是通过统计的方法进行分类的。
本发明的进一步技术方案是:所述人脸检测单元包括双阈值模块,所述双阈值模块在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
本发明的进一步技术方案是:所述人脸检测单元还包括唇动过滤模块,所述唇动过滤模块利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
本发明的技术效果是:构建一种人脸自动标注方法及***,首先从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;最后,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。本发明的人脸自动标注方法及***,使用方便,准确性高。
附图说明
图1为现有标注***结构示意图。
图2为本发明标注***流程图。
图3为本发明采用KLT跟踪算法流程图
图4为本发明人脸跟踪流程图
图5为本发明标注***结构示意图。
图6为本发明标注***具体结构示意图。
具体实施方式
下面结合具体实施例,对本发明技术方案进一步说明。
如图2所示,本发明的具体实施方式是:提供一种人脸自动标注方法,包括如下步骤:
步骤100:人脸检测,即:从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割;对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。
具体实施过程如下:首先使用Adaboost算法进行粗提取:检测窗口最小尺寸设置为20*20dpi,检测窗口的缩放因子为1.2,并将检测到的人脸进行80*80尺寸规格化,经过Adaboost算法提取,得到了一个人脸图片集合,在这个集合中并非都是人脸图片,还存在非人脸的错误图片,需要进行进一步的检测和过滤,从而剔除掉这部分错误的图片。这里采用了肤色模型过滤,通过函数modelSkinColor(IplImage*img)实现,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
载入视频后,读取所有帧,对每一帧图像进行人脸检测,将检测显示在视频在并保存下来,在检测的同时计算相邻帧的HSV颜色直方图差值,用于镜头分割之用。镜头分割使用空间颜色直方图的镜头边缘检测算法,考虑到视频受到光照影响严重,选用基于HSV空间的颜色直方图,因为H分量相对光照变化具有稳定性;镜头分割子中,其分割阈值默认设置为0.4,并且为针对不同视频环境进行准确分割,用户可以手动输入多个分割阈值进行分割并查看分割结果,找到最适合的分割阈值。
人脸跟踪提取人脸序列:基于序列的操作要优于基于单张人脸图像的操作,因为标注的数据量下降,并且以序列为标注单位可以大大提高正确率,该***在人脸跟踪在镜头内部,使用KLT(Kanade-Lucas-Tomasi)基于角点的跟踪算法进行跟踪。该算法分为两个部分:Harris角点检测算法和KLT角点跟踪算法,首先采用Harris角点检测算法检测目标区域的角点,再使用KLT角点跟踪算法跟踪角点,因此,人脸的跟踪就是人脸区域内角点的跟踪。常见的处理方式是检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,依此进行下去。本文在镜头内,考查相邻一帧上的人脸,假设A、B来自相邻帧的人脸,运用Harris角点检测算法找到A的角点,再根据金字塔LK计算稀疏光流的方法查找在B中匹配的角点,并统计匹配个数m(ci,ci+1),其中ci表示A的角点,ci+1表示B的角点。设定一个阈值,当m(ci,ci+1)大于该阈值时,判定这两个目标区域来自同一序列。
对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。
步骤200:说话人脸序列标注,即:通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注。
具体实施过程如下:话者标注并为未说话者模块提供训练数据,***使用话者检测进行说话人脸序列标注,话者检测也是获取训练数据过程。本文使用的话者检测技术首先使用动态时间归整算法来融合剧本和字幕信息,剧本拥有的是人物姓名和说话内容的信息,字幕信息是时间和说话内容的信息,通过建立说话内容的数据字典,将人物姓名,说话内容,时间三者相融合。具体实施例中,建立数据坐标,横轴为时间、纵轴为姓名、坐标为说话内容,将时间、姓名和说话内容三者融合。
根据已标注的说话人脸序列作为训练样本,使用PSM方法对人脸的一些特定区域逐个定位,再根据定位结果进行仿射变换进行人脸姿势矫正,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,归一化处理后作为该人脸特征,将该些人脸作为训练样本,提取的特征后用LC-KSVD算法对说话人脸的这些特征进行编码,来进行字典学习。
步骤300:未说话人脸序列标注,即:用PSM方法定位特征,仿射变换,提取人脸特征并归一化后,使用LC-KSVD算法对该序列人脸的提取出的特征进行编码,并与已经学习到的编码字典进行匹配,通过投票的方式,用来确定未说话人脸属于哪一类,完成标注功能。
具体实施过程如下:首先进行特征提取,基于全局的和基于局部的像素特征,使用Pictorial Structures Model方法进行定位,首先要读入定位模型,进行定位模型的初始化,再依次读入所有人脸序列,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
本发明的优选实施方式是:在人脸检测步骤中,还包括对截取的人脸图片进行肤色过滤,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
本发明的优选实施方式是:在人脸检测步骤中,还包括对截取的人脸图片进行唇动过滤,利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
优选实施过程如下:肤色模型虽然过滤掉了人脸图片集合中大部分的错误人脸图片,但是经过试验发现,在肤色模型过滤过程中,对于一些和人脸颜色十分近似的物体的过滤效果不是很好,比如,黄色地板和肉色的衣服等。为了克服这一问题,***引入了唇色模型。为了实现唇色模型对错误人脸的过滤,首先进行了嘴部区域提取,通过函数modelLipColor(const IplImage*img)实现了此功能,输入的是这种提取采用的方法是利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域。同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
本发明的优选实施方式是:在获取人脸序列过程中,在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
本文所设计的跟踪流程如图3,在从帧i到帧i+4使用KLT角点跟踪得到3个序列,当帧i+2中出现新人脸3时,形成一个新的序列;当帧i+4没有能和帧i+3人脸2相匹配的人脸时,序列1的跟踪结束。分析发现相差距离不大的帧之间由于人物运动过大,可能导致序列断裂而形成两个独立序列,但是这两个序列如果来源于同一镜头就很可能聚合到一起,因此,本文在视频镜头的基础上进行序列提取,在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,即双阈值法。双阈值法可有效地将断裂的序列聚合起来。
人脸跟踪如图4,其中阈值1是KLT算法阈值,用来分割序列;阈值2是序列长度下限,用来做序列粗过滤,将短的序列过滤掉,将跟踪得到的序列保存起来,并可供用户查看,调整跟踪阈值,得到更准确的跟踪结果。
如图5本发明的技术方案是:构建一种人脸自动标注***,包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元,所述人脸检测单元从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点递延给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;所述未说话人脸序列标注模块读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
如图6所示,本发明人脸自动标注***的具体实施过程如下:
首先使用Adaboost算法进行粗提取:检测窗口最小尺寸设置为20*20dpi,检测窗口的缩放因子为1.2,并将检测到的人脸进行80*80尺寸规格化,经过Adaboost算法提取,得到了一个人脸图片集合,在这个集合中并非都是人脸图片,还存在非人脸的错误图片,需要进行进一步的检测和过滤,从而剔除掉这部分错误的图片。这里采用了肤色模型过滤,通过函数modelSkinColor(IplImage*img)实现,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
载入视频后,读取所有帧,对每一帧图像进行人脸检测,将检测显示在视频在并保存下来,在检测的同时计算相邻帧的HSV颜色直方图差值,用于镜头分割之用。镜头分割使用空间颜色直方图的镜头边缘检测算法,考虑到视频受到光照影响严重,选用基于HSV空间的颜色直方图,因为H分量相对光照变化具有稳定性;镜头分割子中,其分割阈值默认设置为0.4,并且为针对不同视频环境进行准确分割,用户可以手动输入多个分割阈值进行分割并查看分割结果,找到最适合的分割阈值。
人脸跟踪提取人脸序列:基于序列的操作要优于基于单张人脸图像的操作,因为标注的数据量下降,并且以序列为标注单位可以大大提高正确率,该***在人脸跟踪在镜头内部,使用KLT(Kanade-Lucas-Tomasi)基于角点的跟踪算法进行跟踪。该算法分为两个部分:Harris角点检测算法和KLT角点跟踪算法,首先采用Harris角点检测算法检测目标区域的角点,再使用KLT角点跟踪算法跟踪角点,因此,人脸的跟踪就是人脸区域内角点的跟踪。常见的处理方式是检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点递延给下一帧,并进行相应的更新,依此进行下去。本文在镜头内,考查相邻帧上的人脸,假设A、B来自相邻帧的人脸,运用Harris角点检测算法找到A的角点,再根据金字塔LK计算稀疏光流的方法查找在B中匹配的角点,并统计匹配个数m(ci,ci+1),其中ci表示A的角点,ci+1表示B的角点。设定一个阈值,当m(ci,ci+1)大于该阈值时,判定这两个目标区域来自同一序列。
说话人脸序列标注:话者标注并为未说话者模块提供训练数据,***使用话者检测进行说话人脸序列标注,话者检测也是获取训练数据过程。本文使用的话者检测技术首先使用动态时间归整算法来融合剧本和字幕信息,剧本拥有的是人物姓名和说话内容的信息,字幕信息是时间和说话内容的信息,通过建立说话内容的数据字典,将人物姓名,说话内容,时间三者相融合。具体实施例中,建立数据坐标,横轴为时间、纵轴为姓名、坐标为说话内容,将时间、姓名和说话内容三者融合。
未说话人脸序列标注:首先进行特征提取,基于全局的和基于局部的像素特征,使用Pictorial Structures Model方法进行定位,首先要读入定位模型,进行定位模型的初始化,再依次读入所有人脸序列,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
本发明的优选实施方式是:所述未说话人脸序列标注单元还包括分类模块,分类,首先要先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,计算各个未分类的人脸的编码,然后进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功。视频人脸分类是通过统计的方法进行分类的。将同一个测试序列的所有人脸属于哪一类进行统计,记为“投票值”,如果测试人脸与该类中某个人脸匹配成功,则表示测试人脸对该类“投了一票”,当某一类在该人脸序列中占的比重值比其他类都大,那么该序列属于该类,这就是投票过程。
分类时使用基于视频特性进行优化的LC-KSVD(基于类标一致性的KSVD字典学习编码)算法,先学习到编码字典,再计算每个测试人脸的编码,并在序列的基础上进行分类。LC-KSVD算法在进行字典学习前要构造一个初始字典,作为KSVD算法迭代学习的输入,本发明使用的是基于序列的方式来优化初始字典的构造。方法具体描述如下:在每一类的每一个序列基础上均匀选择若干个人脸来构造D0,假设字典元素数目为K,类别数目为N,tfij表示第i类的第j个序列,则D0如下:
D0=(d0,d1,...,dk,....)(dk∈tfij,i=1,2,..,N;k=1,2...,K)
D0中每一列表示一个元素,每一个元素都有一个类标对应。当编码字典学习完成后,计算各个需要分类的人脸的编码。视频人脸分类通过在序列基础上统计分类结果的。首先将同一测试序列的所有样本对所有类进行投票,投票值为序列中各测试人脸的在每一类上的分类得分,计算公式为,
j = arg max j ( l = Wx i )
其中W为系数矩阵,xi表示输入信号对应的编码值。Sj=[s1,s2,…,si,…sC]tj=1,…,n,其中Sj表示测试人脸j分类结果,n表示测试序列长度,C表示类别总数,sj表示样本在类j上的得分值;再以序列为基础统计得分和,即
Figure BDA00003010076300091
其中ni表示第i个序列长度;最后将该测试序列的类标定义为
Figure BDA00003010076300092
i=1,...,C。
本发明的优选实施方式是:所述人脸检测单元包括双阈值模块,所述双阈值模块在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
本发明的优选实施方式是:所述人脸检测单元还包括唇动过滤模块,所述唇动过滤模块利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
本发明的技术效果是:构建一种人脸自动标注方法及***,首先从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列。然后通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;最后,读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。本发明的人脸自动标注方法及***,使用方便,准确性高。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种人脸自动标注方法,其特征在于,包括如下步骤:
人脸检测:从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻一帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;
说话人脸序列标注:通过唇动检测模块根据人脸序列中说话人的唇动,检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;
未说话人脸序列标注:先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,计算各个未分类的人脸的编码,用PSM方法定位特征,仿射变换,提取人脸特征并归一化后,使用LC-KSVD算法对该序列人脸的提取出的特征进行编码,并与已经学习到的编码字典进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功,视频人脸分类是通过统计的方法进行分类的,完成标注功能。
2.根据权利要求1所述的人脸自动标注方法,其特征在于,在人脸检测步骤中,还包括对截取的人脸图片进行肤色过滤,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
3.根据权利要求1所述的人脸自动标注方法,其特征在于,在人脸检测步骤中,还包括对截取的人脸图片进行唇动过滤,利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
4.根据权利要求1所述的人脸自动标注方法,其特征在于,在获取人脸序列过程中,在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
5.根据权利要求1所述的人脸自动标注方法,其特征在于,建立数据坐标,横轴为时间、纵轴为姓名、坐标为说话内容,将时间、姓名和说话内容三者融合。
6.根据权利要求1所述的人脸自动标注方法,其特征在于,在人脸跟踪过程设置人脸序列长度下限,将错误人脸剔除。
7.一种人脸自动标注***,其特征在于,包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元,所述人脸检测单元从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;所述未说话人脸序列标注模块读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
8.根据权利要求7所述人脸自动标注***,其特征在于,所述未说话人脸序列标注单元还包括分类模块,所述分类模块先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,然后计算各个未分类的人脸的编码,然后进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功,视频人脸分类是通过统计的方法进行分类的。
9.根据权利要求7所述人脸自动标注***,其特征在于,所述人脸检测单元包括双阈值模块,所述双阈值模块在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
10.根据权利要求7所述人脸自动标注***,其特征在于,所述人脸检测单元还包括唇动过滤模块,所述唇动过滤模块利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
CN201310115471.2A 2013-04-03 2013-04-03 一种人脸自动标注方法及*** Expired - Fee Related CN103218603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310115471.2A CN103218603B (zh) 2013-04-03 2013-04-03 一种人脸自动标注方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310115471.2A CN103218603B (zh) 2013-04-03 2013-04-03 一种人脸自动标注方法及***

Publications (2)

Publication Number Publication Date
CN103218603A true CN103218603A (zh) 2013-07-24
CN103218603B CN103218603B (zh) 2016-06-01

Family

ID=48816372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310115471.2A Expired - Fee Related CN103218603B (zh) 2013-04-03 2013-04-03 一种人脸自动标注方法及***

Country Status (1)

Country Link
CN (1) CN103218603B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390282A (zh) * 2013-07-30 2013-11-13 百度在线网络技术(北京)有限公司 图像标注方法及其装置
CN104091164A (zh) * 2014-07-28 2014-10-08 北京奇虎科技有限公司 人脸图片人名识别方法和***
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN108171135A (zh) * 2017-12-21 2018-06-15 深圳云天励飞技术有限公司 人脸检测方法、装置及计算机可读存储介质
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN109190520A (zh) * 2018-08-16 2019-01-11 广州视源电子科技股份有限公司 一种超分辨率重建人脸图像方法及装置
CN109472217A (zh) * 2018-10-19 2019-03-15 广州慧睿思通信息科技有限公司 智能化运动训练模型构建方法及装置、训练方法及装置
CN109753975A (zh) * 2019-02-02 2019-05-14 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质
CN109948441A (zh) * 2019-02-14 2019-06-28 北京奇艺世纪科技有限公司 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN110998606A (zh) * 2017-08-14 2020-04-10 华为技术有限公司 生成标记数据用于深度对象跟踪
CN111191708A (zh) * 2019-12-25 2020-05-22 浙江省北大信息技术高等研究院 自动化样本关键点标注方法、装置及***
CN112381065A (zh) * 2020-12-07 2021-02-19 福建天创信息科技有限公司 一种人脸定位的方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794264A (zh) * 2005-12-31 2006-06-28 北京中星微电子有限公司 视频序列中人脸的实时检测与持续跟踪的方法及***
CN101510255A (zh) * 2009-03-30 2009-08-19 北京中星微电子有限公司 一种识别定位人脸器官的方法、装置和视频处理芯片
CN102521581A (zh) * 2011-12-22 2012-06-27 刘翔 结合生物特征与局部图像特征的并行人脸识别方法
CN102799870A (zh) * 2012-07-13 2012-11-28 复旦大学 基于分块一致lbp和稀疏编码的单训练样本人脸识别方法
CN102902961A (zh) * 2012-09-21 2013-01-30 武汉大学 基于k近邻稀疏编码均值约束的人脸超分辨率处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794264A (zh) * 2005-12-31 2006-06-28 北京中星微电子有限公司 视频序列中人脸的实时检测与持续跟踪的方法及***
CN101510255A (zh) * 2009-03-30 2009-08-19 北京中星微电子有限公司 一种识别定位人脸器官的方法、装置和视频处理芯片
CN102521581A (zh) * 2011-12-22 2012-06-27 刘翔 结合生物特征与局部图像特征的并行人脸识别方法
CN102799870A (zh) * 2012-07-13 2012-11-28 复旦大学 基于分块一致lbp和稀疏编码的单训练样本人脸识别方法
CN102902961A (zh) * 2012-09-21 2013-01-30 武汉大学 基于k近邻稀疏编码均值约束的人脸超分辨率处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘广征: "基于视频与文本信息的说话者人脸标注", 《万方数据》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390282B (zh) * 2013-07-30 2016-04-13 百度在线网络技术(北京)有限公司 图像标注方法及其装置
CN103390282A (zh) * 2013-07-30 2013-11-13 百度在线网络技术(北京)有限公司 图像标注方法及其装置
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104951730B (zh) * 2014-03-26 2018-08-31 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104091164A (zh) * 2014-07-28 2014-10-08 北京奇虎科技有限公司 人脸图片人名识别方法和***
CN110998606A (zh) * 2017-08-14 2020-04-10 华为技术有限公司 生成标记数据用于深度对象跟踪
CN110998606B (zh) * 2017-08-14 2023-08-22 华为技术有限公司 生成标记数据用于深度对象跟踪
CN108171135A (zh) * 2017-12-21 2018-06-15 深圳云天励飞技术有限公司 人脸检测方法、装置及计算机可读存储介质
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN109190520A (zh) * 2018-08-16 2019-01-11 广州视源电子科技股份有限公司 一种超分辨率重建人脸图像方法及装置
CN109472217A (zh) * 2018-10-19 2019-03-15 广州慧睿思通信息科技有限公司 智能化运动训练模型构建方法及装置、训练方法及装置
CN109472217B (zh) * 2018-10-19 2021-08-31 广州慧睿思通信息科技有限公司 智能化运动训练模型构建方法及装置、训练方法及装置
CN109753975A (zh) * 2019-02-02 2019-05-14 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质
CN109753975B (zh) * 2019-02-02 2021-03-09 杭州睿琪软件有限公司 一种训练样本获得方法、装置、电子设备和存储介质
CN109948441A (zh) * 2019-02-14 2019-06-28 北京奇艺世纪科技有限公司 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN111191708A (zh) * 2019-12-25 2020-05-22 浙江省北大信息技术高等研究院 自动化样本关键点标注方法、装置及***
CN112381065A (zh) * 2020-12-07 2021-02-19 福建天创信息科技有限公司 一种人脸定位的方法及终端
CN112381065B (zh) * 2020-12-07 2024-04-05 福建天创信息科技有限公司 一种人脸定位的方法及终端

Also Published As

Publication number Publication date
CN103218603B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN103218603A (zh) 一种人脸自动标注方法及***
CN110363140B (zh) 一种基于红外图像的人体动作实时识别方法
CN104866829B (zh) 一种基于特征学习的跨年龄人脸验证方法
Li et al. Delving into egocentric actions
CN100565559C (zh) 基于连通分量和支持向量机的图像文本定位方法和装置
CN102163284B (zh) 面向中文环境的复杂场景文本定位方法
Avgerinakis et al. Recognition of activities of daily living for smart home environments
US20160154469A1 (en) Mid-air gesture input method and apparatus
WO2019080203A1 (zh) 一种机器人的手势识别方法、***及机器人
CN103824091B (zh) 一种用于智能交通***的车牌识别方法
CN104978550A (zh) 基于大规模人脸数据库的人脸识别方法及***
CN108647625A (zh) 一种表情识别方法及装置
CN106022231A (zh) 一种基于多特征融合的行人快速检测的技术方法
CN106446952A (zh) 一种乐谱图像识别方法及装置
CN106297755B (zh) 一种用于乐谱图像识别的电子设备及识别方法
CN103735253A (zh) 一种基于移动终端的中医舌象分析***及方法
CN105516802A (zh) 多特征融合的新闻视频摘要提取方法
CN108805076A (zh) 环境影响评估报告书表格文字的提取方法及***
CN104281839A (zh) 一种人体姿势识别方法和装置
CN111046886A (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN105138983B (zh) 基于加权部件模型和选择性搜索分割的行人检测方法
CN105631039A (zh) 一种图片浏览方法
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及***
CN110599463A (zh) 一种基于轻量级联神经网络的舌像检测及定位算法
CN109190456A (zh) 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

Termination date: 20200403