CN106068514B - 用于在不受约束的媒体中识别面孔的***和方法 - Google Patents
用于在不受约束的媒体中识别面孔的***和方法 Download PDFInfo
- Publication number
- CN106068514B CN106068514B CN201480076022.4A CN201480076022A CN106068514B CN 106068514 B CN106068514 B CN 106068514B CN 201480076022 A CN201480076022 A CN 201480076022A CN 106068514 B CN106068514 B CN 106068514B
- Authority
- CN
- China
- Prior art keywords
- face
- model
- image
- individual
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Architecture (AREA)
- Geometry (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
- Processing Or Creating Images (AREA)
Abstract
提供一种用于面孔识别的方法和***。该方法包括基于个人的不同图像确定此人的面孔的三维(3D)模型。该方法还包括从该3D模型提取二维(2D)拼块。再者,该方法包括使用2D拼块的不同组合来生成该面孔的多个签名,其中这些多个签名对应于来自不同角度的3D模型的相应视图。
Description
相关申请
本专利申请要求2013年12月19日提交的先有临时专利申请号61/918,205以及2014年3月20日提交的先有临时专利申请61/968,015的权益,其公开通过引用全部并入本文。
技术领域
本发明公开涉及识别媒体中的图像的***和方法,以及更确切地来说,涉及面孔识别。
背景技术
摄像头变得常见于移动设备、监控传感器和执法车辆中。由于它们的移动性,此类摄像头能够在多种不受约束的状况中记录个人的图像。即,与分阶段面部照片相比,在不受约束状况下记录的个人的面孔可能由于光照(例如,自然光照和人工光照)的变化、个人面孔的属性(例如,年龄、面部毛发、眼镜)、视角(例如,俯仰和摇摆)、遮挡(例如,标志、树木等)等而差异极大。例如,犯法者可能在***时实施非法行为。在作案时间附近,旁观人可能在使用他们的移动摄像头记录事件时捕获犯法者的图像。此外,监视事件的保安摄像头可能从不同(例如架高的)视角捕获到犯法者的图像。并且,犯法者的图像可能被具有不同视角和遮挡的摄像头捕获到。执法机构可以从摄像头的操作者、社交网络网站和媒体出口访问这些记录。但是,尝试从多种记录中识别犯法者可能需要通过大量图像数据中进行筛选。
发明内容
本发明公开提供一种包括基于个人的不同图像确定此人的面孔的三维(3D)模型的方法。该方法还包括从该3D模型提取二维(2D)拼块。再者,该方法包括使用2D拼块的不同组合来生成该面孔的多个签名,其中多个签名对应于来自不同角度的3D模型的相应视图。
此外,本发明公开提供一种面孔识别***,其包括处理器、存储***、存储在计算机可读硬件存储设备上供该处理器执行的的程序指令。这些程序指令包括基于个人的不同图像确定此人的面孔的三维(3D)模型的程序指令。这些程序指令还包括从该3D模型提取二维(2D)拼块的程序指令。再者,这些程序指令包括使用2D拼块的不同组合来生成该面孔的多个签名的程序指令,其中多个签名对应于来自不同角度的3D模型的相应视图。
附图说明
并入本说明书中并构成其一部分的附图图示了本发明的教导,并且连同描述,用于解释本发明公开的多个原理。
图1是图示用于实现根据本发明公开的多个方面的***和过程的示范环境的框图;
图2是图示根据本发明公开的多个方面的示例面孔识别***的功能框图;
图3是图示根据本发明公开的多个方面的用于识别面孔的示范过程的流程图;
图4是图示使用根据本发明公开多个方面的面孔识别***来确定基于属性的表示的示范过程的流程图;
图5是图示使用根据本发明公开多个方面的面孔识别***来确定属性的示范过程的流程图;以及
图6是图示使用根据本发明公开多个方面的面孔识别***来确定多实体PEP签名的示范过程的流程图。
应该注意到,这些附图的一些细节已进行了简化且绘制成有助于本发明教义的理解,而非为了维持严格的结构精确性、细节和比例。
具体实施方式
本发明公开涉及用于识别媒体中的图像的***和方法,以及更确切地来说,涉及面孔识别。根据本发明公开的多个方面,该***和方法可以用于基于个人面孔的基于属性的表示来识别图像中的个人。基于属性的表示包括使用从图像提取的2D拼块和语义表征个人面孔的属性(例如,性别、年龄、人种等)确定的多视图概率弹性部分(“多视图PEP”)签名。多视图PEP签名是使用根据从3D模型提取的2D面部拼块构建的属性相关PEP模型来确定的。PEP模型是基于局部空间外观特征的高斯混合模型。
该3D模型是根据从照片、视频和/或素描中的个人图像获取的面孔的不同姿态构造的。有利地,该基于属性的表示考虑到由于视点、照明、年龄和表情导致个人面孔中而出现的几何形状、结构和光度上的差异性,同时保留能够用于唯一性地将个人面孔与他人相辨别的不变特征。
根据本发明的多个方面,该基于属性的表示将它所基于的面孔的特质(例如,年龄、姿态、照明和表情)归一化。该基于属性的表示与这些特质可以是相互相关的,其中基于属性的表示的参数高度地影响用于归一化的模型以及反之亦然。因此,该基于属性的表示是基于与从属表示所对应的参数组对其进行迭代优化来确定的。
再者,根据本发明的多个方面,基于属性的表示的两个分量(多视图PEP签名和属性)以不同抽象层面来对信息编码。将这些多视图PEP签名所基于的3D模型归一化以通过对可用训练示例不足且无法学习精确的统计模型以考虑到差异的极端差异建模来克服基于2D图像的PEP表示的局限性。再者,从变化的源独立地提取用于构造基于属性的表示的每个分量的领域知识,并将其作为互补性先验约束在基于属性的表示予以实施。
本发明公开的基于属性的表示提供多种优点。首先,用于创建多视图PEP签名的PEP模型提供姿态不变性。其次,因为PEP模型隐含地标识“非面孔”拼块,所以多视图PEP签名考虑到无法直接建模的面孔变化,如遮挡和低分辨率数据。第三,这些多视图PEP签名能够使用支持非视觉媒体(例如,近红外、合成素描等)的模型来吸纳红外线和/或异种数据。第四,可以对图像特征使用统计学习回归函数来将这些多视图PEP签名延伸到所有年龄组。第五,这些多视图PEP签名提供针对光照和表情变化的弹性。即,在确定多视图PEP签名时,通过面孔重光照(relighting)和表情中和来去除由于光照和表情导致的变化。根据本发明公开的多个方面,从多视图PEP提取的2D图像拼块不含此类变化,因为光照(阴影或饱和度)差的任何拼块以及与强面孔表情对应的拼块在多视图PEP签名中均予以降低权重处理。
正如本领域技术人员将认识到的,本发明可以作为一种方法、***或计算机程序产品来实施。相应地,本发明可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合可以全部通称为“电路”、“模块”或“***”的软件和硬件方面的实施例的形式。再者,本发明可以采取计算机可读存储介质上的计算机程序产品的形式,该计算机可读存储介质具有包含在该介质中的计算机可读程序代码。
可以采用任何适合的计算机可用或计算机可读介质。该计算机可用或计算机可读介质可以是例如但不限于,电子、磁、光、电磁、红外线或半导体***、装置、设备或传播介质。计算机可读介质的更具体示例(非穷举列表)包括如下:具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦写可编程只读存储器(EPROM或闪存存储器)、光纤、便携式压缩光盘只读存储器(CD-ROM)、光存储装置、磁存储装置、如支持因特网或内联网的那些的传输介质或磁存储设备。注意计算机可用或计算机可读介质甚至可以是可将程序打印在其上的纸或另一种适合介质,因为该程序能够通过例如对纸或其他介质进行光学扫描以电子方式捕获,然后进行编译、解释或以适合方式进行其他处理(如果必要的话),然后存储在计算机存储器中。在本文件的上下文中,计算机可用或计算机可读介质可以是能够包含、存储、传送、传播或转载被指令执行***、设备或装置使用或与之结合来使用的程序的任何介质。计算机可用介质可以包括其中包含有计算机可用程序代码的,例如基带中或作为载波的一部分传播的数据信号。该计算机可用程序代码可以使用任何适合的介质来传送,这些适合的介质包括但不限于,因特网、有线、光纤电缆、RF等。
可以采用面向对象的编程语言来编写用于实现本发明的操作的计算机程序代码,如Java、Smalltalk、C++等。但是,还可以采用常规过程编程语言来编写用于实现本发明的操作的计算机程序代码,如“C”编程语言或类似编程语言。该程序代码可以完全在用户的计算机上执行,部分地在用户的计算机上执行,作为单独运行的软件包来执行,部分地在用户的计算机上以及部分地在远程计算机或完全在远程计算机或服务器上执行。在后一种情况中,该远程计算机可以经由局域网(LAN)或广域网(WAN)连接到用户计算机,或该连接可以(例如,使用因特网服务提供商经由因特网)连接到外部计算机。
下文中参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图图示和/或框图来描述本发明。将理解流程图图示和/或框图中的每个框和/或流程图图示和/或框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供到通用计算机、专用计算机、其他可编程数据处理设备的处理器以制造机器,以使由计算机和/或其他可编程数据处理设备的处理器执行的这些指令创建用于执行这些流程图和/或框图的一个或多个框中指定的功能/动作的设备。
这些计算机程序指令还可以存储在能够引导计算机或其他可编程数据处理设备或其他设备以特定方式实现功能的计算机可读存储器中,以便存储在该计算机可读存储器中的指令制造包含实现该流程图和/或框图的一个或多个框中指定的功能/动作的指令的制造品。
还可以将这些计算机程序指令加载到计算机或其他可编程数据处理装置上,以使一系列操作步骤在该计算机或其他可编程装置上执行以构成计算机实现的过程,以便该计算机或其他可编程装置上执行的这些指令提供用于实现流程图和/或一个或多个框图中指定的功能/动作的步骤。
图1是用于实现根据本发明公开的多个方面的方法和***的示例环境100。环境100包括面孔识别***105和图像源110。根据本发明公开的多个方面,面孔识别***105是摄取(或获取)包含个人图像的多种媒体(例如,静态图片、运动图片、视频、绘画等)并生成个人面孔的模型(例如,PEP模型)以用于面孔识别的一种***。该***从模型提取信息并使用所提取的信息以在其他媒体中识别个人。图像源110是捕获和/或存储图像数据,如视频、照片、图片等的设备或***。在多个实施例中,图像源110是媒体数据库。作为补充或备选,图像源110是一个或多个图像传感器(例如,摄像头)。
根据本发明公开的多个方面,面孔识别***105包含执行本文描述的过程和功能的硬件和软件。具体来说,面孔识别***105包含计算设备130、输入/输出(I/O)设备133、存储***135和设备选择器137。I/O设备133可以包括使个人能够与计算设备130交互的任何设备(例如,用户接口)和/或使计算设备130能够使用任何类型的通信链路与一个或多个其他计算设备通信的任何设备。I/O设备133可以是例如,手持设备、PDA、触控屏显示器、手机、键盘等。
存储***135可以包括存储信息和程序指令的计算机可读、非易失性硬件存储设备。例如,存储***135可以是一个或多个闪存设备和/或硬盘设备。根据本发明公开的多个方面,存储设备135包含图像数据库136、领域知识数据库137和模型数据库138。图像数据库136可以存储从图像源110获取的图像和媒体。领域知识数据库137包含可应用以用于从媒体提取语义信息(例如,性别、人种、年龄、脸型、皮肤类型、面部特征等)以及用于对面孔建模(例如,与不同性别、人种和年龄对应的形状、特征、比例、肌肉组织和纹理)的预定模型和人体测量信息的集合。模型数据库138包含个人的3D面孔模型、从该3D面孔模型提取的2D拼块和包含基于属性的表示的所提取的属性。
在多个实施例中,计算设备130包含一个或多个处理器139、一个或多个存储器设备141(例如,RAM和ROM)、一个或多个I/O接口143和一个或多个网络接口144。存储器设备141可以包含在程序指令执行期间采用的本地存储器(例如,随机存取存储器和高速缓存存储器)。此外,计算设备130还包含至少一个通信通道(例如,数据总线),通过该至少一个通信通道,计算设备130与输入/输出(I/O)设备133、存储***135和设备选择器137进行通信。处理器139执行能够存储在存储器设备141和/或存储***135中的计算机程序指令(例如,操作***和/或应用程序)。
而且,根据本发明公开的多个方面,处理器139可以执行摄取模块151、分析模块153、建模模块155、提取模块159和匹配模块163的计算机程序指令以执行本文描述的一个或多个过程。摄取模块151、分析模块153、建模模块155和提取模块159和匹配模块163可以作为存储器设备141和/或存储***135中的一个或多个程序指令集实现为单独或组合的模块。此外,摄取模块151、分析模块153、建模模块155和提取模块159和匹配模块163可以作为用于提供这些模块的功能的单独专用处理器或一个或若干处理器来实现。
根据本发明的多个实施例,摄取模块151使得计算设备130从图像源110获取媒体并改善媒体中包含的图像(例如,改善分辨率、模糊处理和对比度)。此外,摄取模块151促使计算设备检测和跟踪图像中的面孔(例如,使用面孔和眼部检测算法)。
分析模块153促使计算设备130从摄取模块151检测到的面孔提取属性。这些属性在语义上描述面孔的特质。在多个实施例中,这些属性是与个人的性别、年龄、人种、发色、脸型、发色等关联的推导的特质。有利地,这些属性通过提供灵活且领域自适应的词汇来描述个人的表观以实现从多视图PEP签名中进行高效索引和检索,从而缩短搜索时间和数据存储要求。
建模模块155促使计算设备130创建或确定个人面孔的3D模型。根据本发明公开的多个方面,该3D模型是对应于3D姿态的所有变化(例如,俯仰和摇摆的量化空间)生成的姿态感知的基于概率性弹性部分(PEP)的模型,其将范围广泛的媒体形式和变化的视觉和光照条件下呈现的面孔的形状、纹理和动力学信息(dynamics)进行密集的编码。此外,根据本发明公开的多个方面,建模模块155可以对3D模型再光照,将该3D模型中捕获的面部表情中和,修改3D模型表示的个人的年龄以及将与该3D模型关联的面部化妆和遮挡纳入考虑。再者,该建模模块可以使用(例如,领域知识数据库137中的)领域知识来填充3D模型中丢失的信息(例如,皮肤纹理和被遮挡的拼块)。
提取模型159促使计算机设备使用2D拼块生成多视图PEP面孔签名和表征多种人口统计群组的语义属性(例如,人种、性别、年龄组等)。根据本发明公开的多个方面,提取模型根据3D模型从多个姿态的投影确定2D拼块。这些姿态可以在多个预定义的视角范围内,这些预定义的视角范围具有相对于3D模型的直视(例如与前视图成0俯仰和0摇摆)的一定俯仰(例如,-10度到+10度)以及摇摆(例如-10度至+10度)。将这些投影组合以根据与这些姿态对应的密集叠加的2D拼块提供多视图PEP签名。换言之,每个多视图PEP面孔签名中包含的数据量不随可用媒体的质量和/或数量而改变。相应地,可以通过并入来自附加图像的信息而不增加表示的大小以增量方式精细化这些多视图PEP面孔签名。
此外,根据本发明公开的多个方面,提取模块159确定每个多视图PEP面孔签名的不确定性度量。该不确定性度量表征每个多视图PEP面孔签名内的2D拼块的质量。提取模块159确定使用可根据3D模型推导的“面孔相似”测量来计算的不确定性度量。例如,该度量可以对应于包含非面孔部分的特定多视图PEP面孔签名所对应的拼块的百分比。
再者,根据本发明公开的多个方面,该多视图PEP面孔签名对于可用图像的分辨率是自适应的。在多个实施例中,将该多视图PEP面孔签名自动地调整到面孔图像上的可用分辨率。由此,可用分辨率越大,面孔表示将含越多细节;以及分辨率越低,面孔表示将越欠细节。
而且,根据本发明公开的多个方面,提取模块159将每个多视图PEP面孔签名与一个或多个属性关联。在多个实施例中,提取模块159将一个或多个面孔属性(例如,人种、年龄、性别、面孔的唯一性纵横比(椭圆脸、圆脸等))追加到相应的多视图PEP面孔签名。由此,本发明公开的基于属性的表示能够使用关联的属性来实现面孔的高效索引和检索。
匹配模块163促使计算设备基于建模模块155确定的个人面孔的基于属性的表示来确定面孔图像是否匹配个人面孔。根据本发明公开的多个方面,匹配是基于为多视图概率性弹性部分(“多视图PEP”)签名的每个分量确定的不确定性度量进行的。此外,根据本发明公开的多个方面,匹配模块163使用领域自适应来跨成像模态来匹配多视图PEP面孔签名。在多个实施例中,这些模态其中包括RGB光谱、红外线、超光谱和绘画(例如,素描和动画)。
在多个实施例中,领域知识数据库137可以包含面孔识别***105能够参考的如下信息:面孔人体测量资料、面孔超分辨率工具、属性相关的3D形状模型、属性相关的多视图PEP、属性提取工具、特征选择先验、面孔动作单元编码***和领域自适应工具。面孔人体测量资料是表征人口统计学面孔信息并跨由于年龄和表情导致的结构变化来识别不变化的面孔特征的人体测量的统计数字(平均值和标准差)。根据3D面孔模型估计的人体测量可以用在匹配模块155确定匹配得分,以及供分析模块153确定属性。面孔超分辨率工具是与范本图像进行基于分量的匹配以用于增强面孔图像的像素级细节。面孔超分辨率工具提供改进型面孔特征提取以供建模模块155构建表示。属性相关3D形状模型是基于人种、性别和年龄对3D面孔形状的变化模式建模的不同子空间。这些信息提供更多资料性先验以供建模模块155对比通用3D面孔形状来拟合3D形状。属性相关多视图PEP是从个体图像密集采样具有常见属性(例如,性别、人种和年龄组)的拼块的高斯混合模型(GMM)。这些信息提供用于匹配模块163执行匹配所用的个性化统计模型。属性提取工具是用于供分析模块153从面孔图像检测属性的有判别力的模型(基于深度学习和结构化预测)。属性提取工具对这些属性的不确定性建模,这样允许沿着面孔的重要方面进行匹配。特征选择先验是基于深度学习的特征选择,其用于实现由于例如年龄、姿态和光照变化导致面孔特征中的不变性差异以及基于增强部分的表示和匹配。这些信息能够实现由提取模块159更快速地特征提取,以用于确定重要和最大有判别力的特征。面孔动作单元编码***是面孔肌肉组织动力学信息的普遍适用中间表示,用于供建模模块155对因表情导致的面部变形建模。面孔动作单元编码***提供面部肌肉组织的显性精确建模。领域自适应工具是对跨年龄、姿态和光照变化对领域移位建模的学习工具。
要注意,计算设备130可以包括能够执行其上安装的计算机程序指令的任何通用计算制造品(例如,个人计算机、服务器等)。但是,计算设备130仅代表能够执行本文描述的过程的多种可能等效计算设备。就此,在多个实施例中,计算设备130提供的功能性可以是通用和/或专用硬件和/或计算机程序指令的任何组合。在每个实施例中,均可以使用标准编程和工程技术来分别创建程序指令和硬件。
图2图示根据本发明公开的多个方面的面孔识别***105的示范过程的功能流程图。面孔识别***105包括摄取模块151、分析模块153、建模模块155、提取模块159和匹配模块163,这些模块可以与先前描述的那些模块相同。根据本发明公开的多个方面,摄取模块151评估从图像源(例如,图像源110)接收的媒体。这些媒体可以包括个人的照片、视频和/或绘画(例如素描)。在多个实施例中,评估媒体包括确定定义比例、面孔覆盖区(例如,图像中面孔中的基于图像中的姿态的部分)、分辨率、模态(例如媒体类型)和/或包含图像的媒体的质量。面孔的比例表征图像分辨率,并且确定摄取模块151将要提取的细节等级。可以将接收的图像和关联的评估信息存储在数据库(例如,图像数据库136)中,以用于后续参考和处理。
此外,根据本发明公开的多个方面,摄取模块151改善接收的媒体中所包含的图像。在多个实施例中,改善图像包括减少模糊度、提高对比度和增加图像分辨率。例如,成像模块151可以通过基于来自大型姿态变化面孔数据集的范本结构(眼睛、嘴、面孔轮廓等)估计优化模糊内核来减少模糊度。模糊内核估计包括识别与模糊化面孔图像最接近的范本(例如,在领域知识数据库137中的),并执行接收模糊化面孔的梯度和最接近范本的正则化过程。再者,改善还可以包括通过使用统计学习和几何形状对光照条件建模来对图像重光照。此外,摄取模块151还可以通过执行直方图均衡来改善图像的对比度。再者,摄取模块151可以使用面孔幻想技术来根据低分辨率数据生成高分辨率图像。
根据本发明公开的多个方面,摄取模块151还检测并跟踪接收的图像中所包含的面孔。在多个实施例中,摄取模块151使用特征定位技术来检测图像中面孔的眼睛和嘴,并确定整体头部姿态估计。例如,摄取模块151可以采用在线有判别力的特征选择(ODFS)方法,该方法基于使用MTL跟踪类型算法的对象表观在线自适应并通过将正样本和负样本的平均置信度之间余量最大化。ODFS方法选择使得目标样本置信度最大化同时抑制背景样本的置信度的特征。这样在分类器更新期间对最正确的正样本给予更大权重以及对背景样本赋予较小分类器,从而利于跨比例、姿态、光照和运动模糊的变化将背景目标与繁杂背景有效分离。此外,摄取模块151还可以使用无人监控的面孔检测自适应方法来检测和跟踪面孔,该方法利用对视频内的社交场景建模来进一步提高面孔跟踪的精确度。
根据本发明的多个方面,摄取模块151还执行面孔特征定位和跟踪。可以使用特征定位来估计图像中个人头部的姿态,并且基于该姿态,确定与眼睛、嘴和面孔的位置对应的基准点(例如,领口、下颚和发际线)。在多个实施例中,摄取模块151使用监督的下降方法(SDM)。SDM包括非参数形状模型,其不需要根据训练数据学***均值最小化的通用下降(generic descent)方向和偏离项的序列。有利地,与其他此类方法相比,基于SDM的面孔特征定位和跟踪在计算上是非常简单的(每个帧4个矩阵相乘),并且利于跟踪具有大姿态变化(例如,±60°摇摆、±90°倾斜以及±30°俯仰)、遮挡和急剧光照变化的面孔标记点。
根据本发明公开的多个方面,分析模块153根据摄取模块151基于领域知识(例如,领域知识数据库137)检测和跟踪的图像中的面孔来确定属性。这些属性提供用于供匹配模块163评估面孔之间的相似度的中间表示空间。在多个实施例中,其中画面中光照和几何形状变化导致的干扰强烈影响低等级特征,可描述的面孔属性的空间为建立面孔之间的对应关系提供更归纳的度量。可以通过将摄取模块151检测的个人面孔中的基准点推理到领域知识(例如,领域知识137)的预定库中包含的特征来确定这些属性。这些基准点将个人面孔中由于例如面孔的姿态和年龄导致出现的变化纳入考虑。在多个实施例中,将特征定位用于3D头部姿态估计和面孔属性推理。将有判别力的模型用于从媒体中面孔图像进行属性的概率性推理。例如,兼用于检测粗略(例如,性别、人种和年龄)以及细化(例如,发型和颜色、眉形、眼睛颜色和胡须)面部属性的已学习模型。分析模块153可以存储面孔的属性,将其存储在数据库(例如,图像数据库136)中,以用于后续参考和处理。
根据本发明多个方面,建模模块155根据基准点和分析模块153确定的属性来确定3D模型。在多个实施例中,3D模型将范围广泛的媒体模态中以及在变化的视角和照明条件下呈现的面孔的形状、纹理和动力学信息进行编码。该3D模型由是对应于3D姿态的所有变化(例如,摇摆和俯仰的量化空间)生成的姿态感知的基于概率性弹性部分(PEP)且根据从面孔提取的人口统计学属性(性别、人种和年龄组)进行独特化(specialized)的模型来构成的。
在多个实施例中,预定义的参数将2D图像映射到3D面孔形状。首先将3D模型与通用3D网格拟合,然后基于人口统计学属性(性别和人种)以迭代方式将其精细化,以便拟合属性相关的模型。该映射可以是例如,包含3D形状、渲染的2D图像和对应的摄像头参数的查询表。例如,给定处于任一姿态(例如,在+/- 70度摇摆和+/- 25度俯仰的范围内)的图像,建模模块155可以根据2D基准点粗略地估计头部姿态。建模模块155可以识别面孔的3D形状以选择通用3D模型,其中使用相似基准特征构造来选择3D模型的初始估计(例如,从领域知识数据库137选择通用3D模型)。使用选定的3D模型,建模模块155然后能够使用拟合算法(例如,梯度下降)来精细化3D面孔模型的面孔对齐和形状。
此外,根据本发明公开的多个方面,建模模块155对3D模型进行重光照。在多个实施例中,建模模块155使用3D面孔重光照算法来通过扩展用于生成线性子空间的训练示例以支持真实场景,其中足够的照明变化使之覆盖不受控的照明条件下拍摄的图像。例如,建模模块155可以使用照明数据库(例如,CMU PIE数据库)来捕获多种不同照明条件和姿态下个人的表观。
再者,根据本发明公开的多个方面,建模模块155对3D模型的表情进行中和。在多个实施例中,为了将表情中和,建模模块155使用基于非线性流形的方法来将3D面部变形建模成若干1D流形的组合(每个1D流形表示一种变形模式:笑容、惊讶、愤怒等)。例如,在将中和的面孔视为高维度空间中的中心点的情况中,可以将同一个人在变化表情下的面孔认为是在该空间的邻域内的点。为了将表情中和,建模模块155可以使用捕获个体点之间的隐含结构关系的低维度空间。这些构成非线性流形。该非线性流形上的坐标对应于面部变形沿着该模式的量值,称为“激活等级”。使用基于允许从稀疏数据点的结构推理的计算框架的非线性流形学习,(例如,N-D 张量投票(Tensor voting)),建模模块155可以估计每个点处流形的局部法线和切线空间。估计的切线向量使得建模模块155能够直接在非线性流形上导航。例如,建模模块155可以使用不同面孔表情下的受检者的3D面孔扫描构成的数据库(例如,Bosphorus数据集)作为训练数据构建流形。
而且,根据本发明的多个方面,建模模块155的中和也通过确定面孔的3D模型以隐式方式执行。即,该3D模型将每个面部拼块与测量其与3D模型所基于的中和面孔图像中的对应拼块的接近度的产生概率。因此,3D模型将受面孔表情影响的面部拼块降低权重。
而且,根据本发明公开的多个方面,建模模块155确定3D模型表示的个人的年龄。可以将年龄效应表征为形状(例如,颅骨增长、松垂特征)与纹理变化(例如,皮肤折皱)的组合。在多个实施例中,建模模块155外插3D形状和纹理模型以将年龄纳入考虑。例如,建模模块155可以确定不同年龄组(例如,少年(<20)、青年(20至35岁)、中年人(35至50岁)以及老年人(50以及以上))的PEP模型。基于年龄组的PEP模型提供统一框架来表征跨年龄组的基于拼块的表观变化。在多个实施例中,由于缺少跨姿态的足够面孔年龄数据集,建模模块155使用属于该年龄组的受检者的前额面孔图像,将基于年龄组的PEP模型的学习限制于前额姿态bin。
显著地,根据本发明公开的多个方面,建模模块155确定的3D模型将面部化妆和遮挡纳入考虑。在基于属性的面孔表示下,隐式地移除了面部化妆和遮挡。即,使用无面部化妆和遮挡的面孔来构建3D模型。因此,基于模型中高概率的分量选择的拼块是没有面部毛发和表观类似于训练示例拼块的表观的那些拼块。例如,在确定3D模型时,建模模块155使用皮肤纹理建模来选择性地从图像提取2D皮肤拼块并更新3D网格的整体皮肤纹理。因此,3D模型的皮肤没有面部毛发。代之以,分析模块152确定的个人的属性表征面部毛发的存在,其可以用于表征3D模型。
根据本发明公开的多个方面,提取模块159从3D模型提取与不同姿态范围对应的2D拼块。在多个实施例中,提取模块159从为多个姿态bin中每一个渲染的图像进行2D拼块的密集采样。2D拼块可以具有变化的大小(例如,分辨率)。例如,提取模块159可以按多个(例如10个)大小级别提取2D拼块,其中每个大小级别逐个级别地减小(例如,80%)。再者,每个级别,提取模块159分辨率,提取2D拼块将以按步长方式对面孔图像采样(例如,每个步长是2D拼块宽度的一半)。具体取决于填充姿态bin的方式(例如,使用来自观察的图像的拼块、使用回归外插的拼块或根据归一化的3D模块渲染的拼块),基于用于确定这些2D拼块所用的相应数据的量将不同的不确定性度量与之关联。
根据本发明公开的多个方面,匹配模块163确定输入图像(例如,犯法者在事件中被捕获的图像)与提取模块159提取的2D拼块的图像之间的匹配。将输入图像与图库媒体之间的相似度计算为其表示的异种签名之间的匹配得分。在多个实施例中,匹配模块163使用索引和匹配方案的组合来匹配多视图PEP签名,并将每个分量的不确定性纳入考虑。根据本发明公开的多个方面,描述面孔的可视属性提供用于评估面孔之间的相似度的中间表示空间。但是画面中光照和几何形状变化导致的干扰强烈影响低等级特征,可描述的面孔属性的空间为建立面孔之间的对应关系提供更归纳的度量。
图3-6中的流程图图示根据本发明公开的多种实施例的***、设备、方法和计算机程序产品的可能实现的功能性和操作。图3-6的流程图中的每个框可以表示程序指令的模块、程序段或部分,其包括用于实现图示的功能和操作的一个或多个计算机可执行指令。在一些备选实现中,流程图的特定框中图示的功能和/或操作可以不按图3-6所示的次序来进行。例如,依次示出的两个框可以基本同时地执行或这些框有时可以按逆序执行,具体取决于所涉及的功能性而定。还要注意,流程图和/或框图中每个框和框图中框的组合可以由执行指定的功能或动作的基于专用硬件的***或专用硬件和计算机指令的组合来实现。
图3图示根据本发明公开的多个方面的用于对图像进行摄取、建模、提取和匹配的示范过程300的流程图。图3的步骤可以使用图1的面孔识别***来实现以从例如图像源(例如,图像源110)获取图像,以及处理获取的图像以执行面孔识别。
在步骤303处,面孔识别***(例如,经由摄取模块151)获取个人的一个或多个图像。例如,该面孔识别***可以从图像源(例如,图像源110),如摄像头和/或图像数据库获取包含个人面孔图像的多个不同图像。这些图像可以存储在数据库(例如,图像数据库136)中以供面孔识别***参考和处理。
在步骤305处,面孔识别***(例如,经由分析模块153)根据图像确定属性。根据本发明的多个方面,这些属性在语义上描述受检者的特质。在多个实施例中,这些属性基于预定义信息和模型(例如,领域知识数据库137)来确定。
在步骤307处,面孔识别***(例如,经由建模模块155)使用图像确定个人面孔的3D模型。例如,建模模块155可以基于步骤305处确定的属性从库(例如领域知识数据库137)选择3D网格,并以步骤303中获取的图像的拼块填充网格。在多个实施例中,该面孔识别***可以从多个图像识别3D模型中缺乏信息的元素。如果该3D模型缺少任何元素,则该面孔识别工具可以使用领域知识(例如,领域知识数据库137)来提供所识别的元素的信息,其中该领域知识是根据属性与受检者或目标个人的属性相似的个人汇编的。
在步骤309处,面孔识别***(例如,经由建模模块155)将步骤307处确定的3D模型归一化。归一化可以包括对3D模型进行重光照以将3D模型表示的面孔中的光照变化归一化。此外,归一化可以包括将3D模型表示的面孔的表情中和,修改3D模型表示的面孔的年龄,以及将与3D模型关联的面部化妆和遮挡纳入考虑,正如本文先前描述的。
在步骤311处,面孔识别***(例如,经由提取模块159)从步骤309中归一化的3D模型中提取与面孔的不同姿态对应的2D拼块。例如,每个不同姿态可以对应于3D模型的相应视角范围。对于每个视角范围,该面孔识别***可以确定多个可视拼块,并将这些拼块的信息与相应视角范围关联地存储在数据库(例如,在模型数据库138中)中。
在步骤313处,面孔识别***(例如,经由提取模块159)确定步骤311中使用的不同姿态的多视图PEP签名。在多个实施例中,多视图PEP签名对应于来自不同角度的相应视角范围的3D模型。在多个实施例中,该面孔识别***使用多个附加面孔图像以迭代方式精细化多视图PEP签名。但是,根据本发明的多个方面,每个多视图PEP签名具有固定大小,而不考虑附加面孔图像的数量。而且,根据本发明的多个方面,该面孔识别***确定与面孔中相对于面孔的其他特征具有最大有判别力的特征的部分对应的多视图PEP签名之一。在多个实施例中,确定面孔中具有最大有判别力的特征的部分是使用卷积神经网络来执行,该卷积神经网络已利用用于执行面孔特征选择的数据来训练。例如,基于训练数据,该卷积神经网络能够用于确定每个部分的不确定性度量并选择这些面孔中具有最小不确定性度量的对应部分。
在步骤315处,面孔识别***(例如,经由提取模块159)利用步骤305中确定的属性对多视图PEP签名建立索引。在多个实施例中,对于特定多视图PEP签名,可以通过将属性转换成视为分量多视图PEP签名的向量来对该属性建立索引。例如,可以使用优化变换编码方法来执行索引。
在步骤317处,该面孔识别***(例如,经由提取模块159)将一个或多个不确定性度量与每个多视图PEP签名关联。这些不确定性度量可以是基于生成每个多视图PEP签名所用的信息的质量(例如,由于遮挡、面部化妆、光照和视角导致的)确定的值。可以将这些多视图PEP签名与步骤315处确定的其相应属性以及步骤317处确定的相应不确定性度量关联地存储在数据库中(例如,模型数据库138)。
在步骤319处,该面孔识别***(例如,经由匹配模块163)基于步骤305中确定的属性、步骤315中确定的多视图PEP签名和步骤317处确定的不确定性度量来确定输入图像是否与已建模的个人面孔匹配。在多个实施例中,该确定包括基于输入图像的分辨率来修改多个签名的分辨率。此外,在多个实施例中,该确定包括使用多种成像模态来执行匹配。例如,匹配可以使用与可见光谱图像、红外线图像和/或绘画对应的PEP签名来执行。
图4图示根据本发明公开多个方面的用于使用面孔识别***(例如,面孔识别***105)确定基于属性的表示的流程图。该面孔识别***可以与本文先前描述的相同。在步骤403处,该面孔识别***从一个或多个源(例如图像源110)接收个人的一个或多个图像405。在步骤407处,该面孔识别***(例如,使用建模模块155)确定个人面孔的3D模型。该3D模型可以基于标准形状,该标准形状是基于从接收的图像(例如使用分析模块153)提取的个人的属性(例如,性别、年龄、人种等)来选择的。再者,该面孔识别***可以通过对模型光照构成、将面孔表情归一化和/或将面孔老化来修改3D模块中个人面孔的表示,正如先前描述。
在步骤409处,该面孔识别***105(例如,使用提取模块159)通过提取与3D模型的多个不同姿态对应的2D拼块以从步骤407处确定的3D模型确定多视图Pep签名。每个姿态可以对应于基于俯仰和摇摆范围的不同组合的3D模型的视角。例如,第一组合可以包括-15度至15度的俯仰范围和10度至40度的摇摆范围;第二组合可以包括-10度至+10度的俯仰范围和-90度至-75度的摇摆范围;第三组合可以包括-10度至+10度的俯仰范围和-45度至-15度的摇摆范围;第四组合可以包括-10度至+10度的俯仰范围和-15度至+15度的摇摆范围;第五组合可以包括-10度至+10度的俯仰范围和+15度至+45度的摇摆范围;第六组合可以包括-10度至+10度的俯仰范围和+75度至+90度的摇摆范围;以及第七组合可以包括-40度至-10度的俯仰范围和-15度至+15度的摇摆范围。根据本发明多个方面,对于多种图像模态413(例如,可见光谱、红外线和素描/动画)确定多视图PEP签名。
在步骤415处,该面孔识别***(例如,使用提取模块159)填充多个bin 417(例如,bin 0-8),这些bin 417分别对应于为步骤409中使用的不同姿态(例如,姿态0-8)确定的每个多视图PEP签名。此外,通过一个或多个属性419为每个bin 417建立索引。再者,将每个bin 417与相应不确定性度量421关联。根据本发明公开的多个方面,可以基于个人的图像与对应于不同姿态确定的多视图PEP签名之间的相似度来标识个人。
图5图示根据本发明公开多个方面的面孔识别***(例如,面孔识别***105)来确定属性的流程图。这些属性可以由面孔识别***的分析模块153来确定,并且这些属性可以与本文先前描述的相同。在步骤503处,分析模块153可以检测图像中的个人面孔,正如本文先前描述。可以将检测到的面孔与姿态关联。在步骤505处,分析模块153可以确定步骤503处检测到的面孔中的基准点,正如本文先前描述。在步骤507处,分析模块153可以基于步骤505处确定的基准点来从面孔内确定2D拼块。
再者,在步骤509处,分析模块153可以将步骤503中以及步骤507处确定的2D拼块检测到的面孔的属性(例如,姿态)分类。例如,基于面孔和2D拼块,分析模块153使用线性分类器,其将语义“男性”、“高加索人”、“尖鼻子”和“眼镜”与图像关联。每个语义可以具有相应语义的关联权重,该关联权重对应于该确定的可信度。例如,当分析模块153确定图像中的个人的性别肯定是男性时,与语义“男性”关联的权重较大,以及当分析模块153确定图像中个人的性别不明显地是男性时,权重可能较低。在多个实施例中,可信度可以基于图像中的基准点与参考数据(例如,领域知识数据库137中的)进行比较所确定的相似度来确定。
在多个实施例中,分析模块153使用卷积神经网络(CNN)来确定这些属性,该卷积神经网络(CNN)识别与头部姿态的访问摇摆和俯仰值对应的多视图PEP表示。通过在步骤507中基于姿态相关的部分将图像分解成2D拼块,卷积神经网络的后续训练实质性地更容易。相应地,分析模块153可以从相对较小的数据集确定姿态归一化的特征。除了低级别特征外,用于建立一对表示之间的对应关系(或匹配)所用的图像拼块还取决于3D姿态(摇摆和俯仰),并且可以使用该卷积神经网络对应于每个3D姿态独立地进行学习。再者,分析模块153可以使用强化深度卷积网络的模型以使输入层基于语义上对齐的部分拼块。此模型学习某个姿态下特定于某个属性的特征。分析模块153然后可以将此类网络传输的属性组合并构造姿态归一化的深度表示。该分析模块将深度学习构架集成在基于多视图PEP的表示中,其训练成支持具有不同分辨率、质量和状况(例如,年龄、姿态、照明)的媒体。
图6图示根据本发明公开多个方面的面孔识别***(例如,面孔识别***105)执行的用于确定多视图PEP签名的过程的流程图。可以由提取模块159来确定这些属性,其可以与本文先前论述的那些属性相同。
在步骤603处,提取模块159从3D模型中提取局部描述符,这可与先前所述一样。在步骤605处,提取模块159确定PEP模型的分量。根据本发明的多个方面,训练图像(例如,图像数据库136中的),建模模块155使用将高斯分量约束成球形的高斯混合模型来提取空间表观局部描述符。提取模块159可以使用预期最大化(EM)来确定参数。PEP模型有效地基于部分基于表示处理姿态变化,并且使用不变性局部描述符来处理来自其他因素的变化。
在步骤607处,提取模块159从步骤605中确定的PEP模型的分量确定最大似然部分描述符。例如,所确定的PEP模型的每个高斯分量(表示面孔部分)从模型的参数中选择该分量的最高概率的局部图像描述符。
在步骤609处,提取模块159从步骤607中确定的最大似然部分描述符确定PEP签名。为了确定最终表示,提取模块159可以从所有分量集中选定的描述符。为了处理真实世界状况,提取模块159将上文描述的PEP模型扩展成姿态感知的PEP模型,从而建模模块155将摇摆-俯仰姿态空间离散化成不同姿态bin,并获取每个bin的不同PEP模型和表示。所有PEP模型的整体效果促成能够更有效的对更大范围姿态变化建模的整体PEP表示。提取模块159对整体中每个个体PEP表示进行度量学习,并自然地采用输入面孔图像相对于每个个体PEP模型的产生概率以自适应地对基于每个个体PEP表示定义的度量加权。
利用受检者的每个附加面孔图像,提取模块159汇总采用软最大值聚合将这些部分描述符聚合。通过获取来自所有面孔图像的所有最大似然部分描述符的加权和,其中每个最大似然部分描述符的权重是使用与对应部分关联的描述符的概率通过多项式软最大值函数设置的,PEP模型能够实现描述符的增量且可逆更新。同时地记录每个最大似然部分描述符的概率,能够通过将来自附加新图信道最大似然描述符相加或从已用于产生现有表示的现有图像子集移除最大似然描述符来实现灵活地更新现有表示,而无需访问所有原始图像。再者,基于软最大值聚合的更新能够使得姿态感知PEP表示固定大小。
根据本发明的多个方面,基于姿态感知PEP的2D表示将是三部分表示,其中每个部分对应于来自可视光谱的图像、来自近红外光谱的图像和复合素描(或动画)的图像。对于每种类型的表示,提取模块159估计不确定性度量,其与基于产生概率从拼块导出的签名关联。此类不确定性度量可以帮助将签名与个人精确地匹配。
本发明公开不限于本申请中描述的特定实施例,这些实施例旨在作为多个方面的说明。本领域技术人员将显见到,在不背离其范围和精神的前提下可以进行多种修改和改变。除了本文枚举的那些外,本领域技术人员根据前文描述将显见到本发明公开的范围内的功能上等效的方法和装置。此类修改和改变理应落在所附权利要求的范围内。本发明公开仅由所附权利要求连同此类权利要求赋予的等效物的全部范围来限定。还要理解的是,本文所使用的术语仅出于描述特定实施例的目的,并无意作为限制。
就本文中大致任何复数形式和/或单数形式术语的使用而言,本领域技术人员能够酌情将复数解释为单数和/或从单数解释为复数。为了简明期间,本文可能明确地阐述多种单数/复数置换。
本领域技术人员将理解,一般地,本文使用的术语,尤其所附权利要求中使用的术语(例如,所附权利要求的文体)一般理应作为“开放性”术语(例如,术语“包含”应解释为“包含但是不限于”,术语“具有”应该解释为“至少具有”,术语“包括”应解释为“包括但不限于”等)。本领域人员将进一步理解,如果有意指出被引入的权利要求引述(ClaimRecitation)的具体数目,则在该权利要求中将显式地陈述该意图,并且若没有这种陈述,则没有这种意图。例如,作为对理解的帮助,权利要求可包含介绍性短语“至少一个”和“一个或多个”的使用,以引入权利要求引述。然而,即便当同样的权利要求包含介绍性短语“一个或多个”或“至少一个”以及不定冠词(例如,“一个” 一般应当被解释为指“至少一个”或“一个或多个”)时,这些短语的使用也不应当被解释为暗示由不定冠词对权利要求引述的引入将包含了这些被引入的权利要求引述的任何特定权利要求限制为仅仅包含了一个这种引述的发明;对于使用被用于引入权利要求引述的定冠词,同样成立。此外,即使显式地陈述具体数目的被引用的权利要求引述,本领域技术人员将认识到,这种引述应当被解释为指至少该所述数目(例如,没有其他修饰语的“两个引述”的单纯引述一般指至少两个引述,或者两个或更多引述)。再者,在使用了类似于“A、B和C等的至少其中之一”的惯例的那些情况中,一般来说,这种结构是在本领域技术人员将会解读该惯例的意义上被意指的(例如,“具有A、B和C的至少其中之一的***”会包括但不限于仅具有A、仅具有B、仅具有C、具有A与B、具有A与C、具有B与C和/或具有A、B及C、等的***)。在使用了类似于“A、B或C等的至少其中之一”的惯例的那些情况中,一般来说,这种结构是在本领域技术人员将会解读该惯例的意义上被意指的(例如,“具有A、B或C的至少其中之一的***”会包括但不限于仅具有A、仅具有B、仅具有C、具有A与B、具有A与C、具有 B与C和/或具有A、B及C、等的***)。本领域人员将进一步理解,无论在说明书、权利要求书或附图中,任何转折词和/或表示两个或更多替代术语的短语应当为理解为设想到了以下可能包含这些术语中的一个;包含这些术语中的仅仅一个;包含两者。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能。例如,短语 "A或B”将被理解为包括“A”或“B”或“A和B”的可能。此外,在本发明公开的多个特征或方面是依据马库什(Markush)组来描述的,但是本领域技术人员将认识到,本发明公开还由此依据马库什组成员的任何个别组或子组来描述。
虽然本文公开的多种方面和实施例,但是本领域技术人员将显见到其他方面和实施例。本文公开的多种方面和实施例是出于说明的目的,而非旨在作为限制,其真实范围和精神由所附权利要求来指示。
Claims (24)
1.一种用于面孔识别的方法,包括:
基于个人的多个不同图像确定所述个人的面孔的三维(3D)模型,其中所述确定所述3D模型包括:从所述多个图像识别所述3D模型的缺乏信息的元素;以及使用领域知识为所识别元素提供所述信息,所述领域知识是从具有与所述个人的属性相似的属性的个人汇编的;
从所述3D模型提取二维(2D)拼块;以及
使用所述2D拼块的不同组合来生成所述面孔的多个签名,其中所述多个签名对应于来自不同角度的所述3D模型的相应视图;
确定所述个人的在语义上描述所述个人的特质的多个属性;以及
基于所述多个属性对所述多个签名建立索引。
2.如权利要求1所述的方法,还包括通过将所述3D模型中的光照变化归一化来修改所述3D模型。
3.如权利要求1所述的方法,还包括将由所述个人的所述多个不同图像产生的面部表情中和。
4.如权利要求1所述的方法,还包括基于所述个人的年龄来修改所述3D模型。
5.如权利要求1所述的方法,还包括确定所述多个签名的相应不确定性值,其中所述不确定性值基于所述多个签名中包含的相应2D拼块的质量。
6.如权利要求1所述的方法,还包括确定面孔图像与所述多个签名的至少其中之一匹配。
7.如权利要求6所述的方法,其中所述确定所述面孔图像匹配包括,基于所述面孔图像的分辨率来修改所述多个签名的分辨率。
8.如权利要求6所述的方法,其中所述确定所述面孔图像匹配包括,使用多个成像模态来匹配。
9.如权利要求1所述的方法,其中使用所述个人的多个附加面孔图像以迭代方式精细化所述面孔的所述多个签名。
10.如权利要求9所述的方法,其中所述面孔的所述多个签名具有固定大小,而不考虑附加面孔图像的数量。
11.如权利要求1所述的方法,还包括:
确定与所述多个签名分别对应的不确定性度量,
将所述多个签名与对应的不确定性度量关联。
12.如权利要求1所述的方法,还包括确定所述多个签名中哪个与所述面孔中具有最大数量有判别力的特征的部分对应。
13.一种面孔识别***,包括:
处理器;
存储***;
存储在计算机可读硬件存储设备上以供所述处理器执行的程序指令,所述程序指令包括:
基于个人的多个不同图像确定所述个人的面孔的三维(3D)模型的程序指令,其中所述确定所述3D模型包括:从所述多个图像识别所述3D模型的缺乏信息的元素;以及使用领域知识为所识别元素提供所述信息,所述领域知识是从具有与所述个人的属性相似的属性的个人汇编的;
从所述3D模型提取二维(2D)拼块的程序指令;以及
使用所述2D拼块的不同组合来生成所述面孔的多个签名的程序指令,其中所述多个签名对应于来自不同角度的所述3D模型的相应视图;
确定所述个人的在语义上描述所述个人的特质的多个属性的程序指令;以及
基于所述多个属性对所述多个签名建立索引的程序指令。
14.如权利要求13所述的***,还包括通过将所述3D模型中的光照变化归一化来修改所述3D模型。
15.如权利要求13所述的***,还包括将由所述个人的所述多个不同图像产生的面部表情归一化。
16.如权利要求13所述的***,还包括基于所述个人的年龄来修改所述3D模型。
17.如权利要求13所述的***,还包括确定所述多个签名的相应不确定性值,其中所述不确定性值基于所述多个签名中包含的相应2D拼块的质量。
18.如权利要求13所述的***,还包括确定面孔图像与所述多个签名的至少其中之一匹配。
19.如权利要求18所述的***,其中所述确定所述面孔图像匹配包括,基于所述面孔图像的分辨率来修改所述多个签名的分辨率。
20.如权利要求18所述的***,其中所述确定所述面孔图像匹配包括,使用多种成像模态来匹配。
21.如权利要求13所述的***,其中使用所述个人的多个附加面孔图像以迭代方式精细化所述面孔的所述多个签名。
22.如权利要求13所述的***,其中所述面孔的所述多个签名具有固定大小,而不考虑附加面孔图像的数量。
23.如权利要求13所述的***,还包括:
确定与所述多个签名分别对应的不确定性度量,
将所述多个签名与对应的不确定性度量关联。
24.如权利要求13所述的***,还包括确定所述多个签名中哪个与所述面孔中具有最大数量有判别力的特征的部分对应。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361918205P | 2013-12-19 | 2013-12-19 | |
US61/918205 | 2013-12-19 | ||
US201461968015P | 2014-03-20 | 2014-03-20 | |
US61/968015 | 2014-03-20 | ||
PCT/US2014/071548 WO2015095733A1 (en) | 2013-12-19 | 2014-12-19 | System and method for identifying faces in unconstrained media |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106068514A CN106068514A (zh) | 2016-11-02 |
CN106068514B true CN106068514B (zh) | 2019-09-20 |
Family
ID=53400364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480076022.4A Active CN106068514B (zh) | 2013-12-19 | 2014-12-19 | 用于在不受约束的媒体中识别面孔的***和方法 |
Country Status (12)
Country | Link |
---|---|
US (2) | US9449432B2 (zh) |
EP (1) | EP3084682B1 (zh) |
JP (1) | JP6411510B2 (zh) |
KR (1) | KR102174595B1 (zh) |
CN (1) | CN106068514B (zh) |
AU (1) | AU2014368997B2 (zh) |
CA (1) | CA2934514C (zh) |
IL (1) | IL246209B (zh) |
MX (1) | MX358833B (zh) |
SG (1) | SG11201604981UA (zh) |
WO (1) | WO2015095733A1 (zh) |
ZA (1) | ZA201604115B (zh) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633186B2 (en) * | 2012-04-23 | 2017-04-25 | Apple Inc. | Systems and methods for controlling output of content based on human recognition data detection |
US9874749B2 (en) | 2013-11-27 | 2018-01-23 | Magic Leap, Inc. | Virtual and augmented reality systems and methods |
US20150235073A1 (en) * | 2014-01-28 | 2015-08-20 | The Trustees Of The Stevens Institute Of Technology | Flexible part-based representation for real-world face recognition apparatus and methods |
CN105005755B (zh) * | 2014-04-25 | 2019-03-29 | 北京邮电大学 | 三维人脸识别方法和*** |
US9953425B2 (en) | 2014-07-30 | 2018-04-24 | Adobe Systems Incorporated | Learning image categorization using related attributes |
US9536293B2 (en) * | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US20160086021A1 (en) * | 2014-09-24 | 2016-03-24 | 1A Smart Start, Inc. | Substance Testing Systems and Methods with Test Subject Identification Using Electronic Facial Recognition Techniques |
US10360498B2 (en) * | 2014-12-18 | 2019-07-23 | Facebook, Inc. | Unsupervised training sets for content classification |
US10402626B2 (en) * | 2015-03-02 | 2019-09-03 | M and M Technologies Limited | Recognition of human faces based on population verified reproducible measurements between facial anthropological landmarks on 2 dimensional or 3 dimensional human photographs |
NZ735465A (en) | 2015-03-05 | 2021-07-30 | Magic Leap Inc | Systems and methods for augmented reality |
US10838207B2 (en) | 2015-03-05 | 2020-11-17 | Magic Leap, Inc. | Systems and methods for augmented reality |
US10180734B2 (en) | 2015-03-05 | 2019-01-15 | Magic Leap, Inc. | Systems and methods for augmented reality |
KR20170000748A (ko) | 2015-06-24 | 2017-01-03 | 삼성전자주식회사 | 얼굴 인식 방법 및 장치 |
JP6754619B2 (ja) * | 2015-06-24 | 2020-09-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 顔認識方法及び装置 |
CN107735795B (zh) * | 2015-07-02 | 2021-11-26 | 北京市商汤科技开发有限公司 | 用于社会关系识别的方法和*** |
KR102477190B1 (ko) * | 2015-08-10 | 2022-12-13 | 삼성전자주식회사 | 얼굴 인식 방법 및 장치 |
KR20180090355A (ko) * | 2015-12-04 | 2018-08-10 | 매직 립, 인코포레이티드 | 리로컬리제이션 시스템들 및 방법들 |
US10424072B2 (en) | 2016-03-01 | 2019-09-24 | Samsung Electronics Co., Ltd. | Leveraging multi cues for fine-grained object classification |
CN108701323B (zh) | 2016-03-21 | 2023-11-10 | 宝洁公司 | 用于提供定制的产品推荐的***和方法 |
US10049307B2 (en) * | 2016-04-04 | 2018-08-14 | International Business Machines Corporation | Visual object recognition |
CN106056562B (zh) * | 2016-05-19 | 2019-05-28 | 京东方科技集团股份有限公司 | 一种人脸图像处理方法、装置及电子设备 |
US10579860B2 (en) | 2016-06-06 | 2020-03-03 | Samsung Electronics Co., Ltd. | Learning model for salient facial region detection |
US9940551B1 (en) * | 2016-06-17 | 2018-04-10 | Google Llc | Image generation using neural networks |
KR20210025721A (ko) | 2016-08-02 | 2021-03-09 | 매직 립, 인코포레이티드 | 고정-거리 가상 및 증강 현실 시스템들 및 방법들 |
US10223612B2 (en) | 2016-09-01 | 2019-03-05 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
US20180075317A1 (en) * | 2016-09-09 | 2018-03-15 | Microsoft Technology Licensing, Llc | Person centric trait specific photo match ranking engine |
US10395099B2 (en) * | 2016-09-19 | 2019-08-27 | L'oreal | Systems, devices, and methods for three-dimensional analysis of eyebags |
US11132543B2 (en) * | 2016-12-28 | 2021-09-28 | Nvidia Corporation | Unconstrained appearance-based gaze estimation |
US10812936B2 (en) | 2017-01-23 | 2020-10-20 | Magic Leap, Inc. | Localization determination for mixed reality systems |
US10762598B2 (en) | 2017-03-17 | 2020-09-01 | Magic Leap, Inc. | Mixed reality system with color virtual content warping and method of generating virtual content using same |
CN110419061B (zh) | 2017-03-17 | 2023-09-29 | 奇跃公司 | 混合现实***及使用该***生成虚拟内容的方法 |
KR102366140B1 (ko) | 2017-03-17 | 2022-02-21 | 매직 립, 인코포레이티드 | 가상 콘텐츠 워핑을 갖는 혼합 현실 시스템 및 이를 사용하여 가상 콘텐츠를 생성하는 방법 |
US10621771B2 (en) * | 2017-03-21 | 2020-04-14 | The Procter & Gamble Company | Methods for age appearance simulation |
US10614623B2 (en) * | 2017-03-21 | 2020-04-07 | Canfield Scientific, Incorporated | Methods and apparatuses for age appearance simulation |
KR102061408B1 (ko) | 2017-03-24 | 2019-12-31 | (주)제이엘케이인스펙션 | 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법 |
CN107066966A (zh) * | 2017-04-17 | 2017-08-18 | 宜宾学院 | 一种基于关键点区域图像的人脸识别方法 |
JP6974697B2 (ja) * | 2017-05-26 | 2021-12-01 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
US10574883B2 (en) | 2017-05-31 | 2020-02-25 | The Procter & Gamble Company | System and method for guiding a user to take a selfie |
CN110709856B (zh) | 2017-05-31 | 2023-11-28 | 宝洁公司 | 用于确定表观皮肤年龄的***和方法 |
CN107301657B (zh) * | 2017-06-12 | 2018-08-10 | 西安交通大学 | 一种考虑目标运动信息的视频目标跟踪方法 |
WO2019000466A1 (zh) * | 2017-06-30 | 2019-01-03 | 广东欧珀移动通信有限公司 | 人脸识别方法、装置、存储介质及电子设备 |
CN107491771A (zh) * | 2017-09-21 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 人脸检测方法和装置 |
US10579785B2 (en) * | 2017-09-29 | 2020-03-03 | General Electric Company | Automatic authentification for MES system using facial recognition |
CN107844661B (zh) * | 2017-11-20 | 2021-06-18 | 中铁第四勘察设计院集团有限公司 | 一种站台门参数化二维图纸/三维模型智能转换方法及*** |
CN107832541B (zh) * | 2017-11-20 | 2021-06-18 | 中铁第四勘察设计院集团有限公司 | 一种参数化二维图纸/三维模型智能转换方法及*** |
KR102183672B1 (ko) * | 2018-05-25 | 2020-11-27 | 광운대학교 산학협력단 | 합성곱 신경망에 대한 도메인 불변 사람 분류기를 위한 연관성 학습 시스템 및 방법 |
CN110717575B (zh) * | 2018-07-13 | 2022-07-26 | 奇景光电股份有限公司 | 无帧缓冲器的卷积神经网络***与方法 |
CN112513712B (zh) | 2018-07-23 | 2023-05-09 | 奇跃公司 | 具有虚拟内容翘曲的混合现实***和使用该***生成虚拟内容的方法 |
WO2020023523A1 (en) | 2018-07-23 | 2020-01-30 | Magic Leap, Inc. | Intra-field sub code timing in field sequential displays |
KR102229056B1 (ko) * | 2018-08-09 | 2021-03-17 | 에스케이텔레콤 주식회사 | 표정 인식 모델 생성 장치, 방법 및 이러한 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체 |
US11030798B2 (en) * | 2019-01-30 | 2021-06-08 | Perfect Mobile Corp. | Systems and methods for virtual application of makeup effects based on lighting conditions and surface properties of makeup effects |
CN110210456A (zh) * | 2019-06-19 | 2019-09-06 | 贵州理工学院 | 一种基于3d卷积神经网络的头部姿态估计方法 |
KR20210069467A (ko) | 2019-12-03 | 2021-06-11 | 삼성전자주식회사 | 뉴럴 네트워크의 학습 방법 및 장치와 뉴럴 네트워크를 이용한 인증 방법 및 장치 |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
CN111369661B (zh) * | 2020-03-10 | 2023-03-17 | 四川大学 | 一种基于OpenCL的三维体数据可视化并行渲染方法 |
KR102441171B1 (ko) * | 2020-05-26 | 2022-09-08 | 한국전자통신연구원 | 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 |
US11386609B2 (en) | 2020-10-27 | 2022-07-12 | Microsoft Technology Licensing, Llc | Head position extrapolation based on a 3D model and image data |
US11908233B2 (en) * | 2020-11-02 | 2024-02-20 | Pinscreen, Inc. | Normalization of facial images using deep neural networks |
US20220147735A1 (en) * | 2020-11-10 | 2022-05-12 | Nec Laboratories America, Inc. | Face-aware person re-identification system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131730A (zh) * | 2007-09-25 | 2008-02-27 | 浙江大学 | 一种弱化表情形变影响的三维人脸识别方法 |
CN102592136A (zh) * | 2011-12-21 | 2012-07-18 | 东南大学 | 基于几何图像中中频信息的三维人脸识别方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7103211B1 (en) * | 2001-09-04 | 2006-09-05 | Geometrix, Inc. | Method and apparatus for generating 3D face models from one camera |
AUPS170902A0 (en) * | 2002-04-12 | 2002-05-16 | Canon Kabushiki Kaisha | Face detection and tracking in a video sequence |
US8553949B2 (en) * | 2004-01-22 | 2013-10-08 | DigitalOptics Corporation Europe Limited | Classification and organization of consumer digital images using workflow, and face detection and recognition |
WO2005098743A2 (en) * | 2004-04-06 | 2005-10-20 | Rf Intelligent Systems, Inc. | 2d/3d facial biometric mobile identification |
CA2579903C (en) * | 2004-09-17 | 2012-03-13 | Cyberextruder.Com, Inc. | System, method, and apparatus for generating a three-dimensional representation from one or more two-dimensional images |
US8571272B2 (en) * | 2006-03-12 | 2013-10-29 | Google Inc. | Techniques for enabling or establishing the use of face recognition algorithms |
US8811692B2 (en) * | 2007-04-17 | 2014-08-19 | Francine J. Prokoski | System and method for using three dimensional infrared imaging for libraries of standardized medical imagery |
US8090160B2 (en) * | 2007-10-12 | 2012-01-03 | The University Of Houston System | Automated method for human face modeling and relighting with application to face recognition |
EP2291796A1 (en) | 2008-07-02 | 2011-03-09 | C-True Ltd. | Networked face recognition system |
IL196162A (en) * | 2008-12-24 | 2013-02-28 | Rafael Advanced Defense Sys | A system that uses 3D models to enable image comparison regardless of the source of the images |
JP2010165183A (ja) * | 2009-01-15 | 2010-07-29 | Panasonic Electric Works Co Ltd | 人体検出装置 |
US9314692B2 (en) * | 2012-09-21 | 2016-04-19 | Luxand, Inc. | Method of creating avatar from user submitted image |
-
2014
- 2014-12-19 AU AU2014368997A patent/AU2014368997B2/en active Active
- 2014-12-19 US US14/576,818 patent/US9449432B2/en active Active
- 2014-12-19 MX MX2016007868A patent/MX358833B/es active IP Right Grant
- 2014-12-19 JP JP2016539261A patent/JP6411510B2/ja active Active
- 2014-12-19 CA CA2934514A patent/CA2934514C/en active Active
- 2014-12-19 WO PCT/US2014/071548 patent/WO2015095733A1/en active Application Filing
- 2014-12-19 KR KR1020167019024A patent/KR102174595B1/ko active IP Right Grant
- 2014-12-19 SG SG11201604981UA patent/SG11201604981UA/en unknown
- 2014-12-19 CN CN201480076022.4A patent/CN106068514B/zh active Active
- 2014-12-19 EP EP14871564.2A patent/EP3084682B1/en active Active
-
2016
- 2016-06-14 IL IL246209A patent/IL246209B/en active IP Right Grant
- 2016-06-17 ZA ZA2016/04115A patent/ZA201604115B/en unknown
- 2016-07-08 US US15/205,134 patent/US20160314345A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131730A (zh) * | 2007-09-25 | 2008-02-27 | 浙江大学 | 一种弱化表情形变影响的三维人脸识别方法 |
CN102592136A (zh) * | 2011-12-21 | 2012-07-18 | 东南大学 | 基于几何图像中中频信息的三维人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
Non-Cooperative Persons Identification at a Distance with 3D Face Modeling;Gerard Medioni et.al;《2007 First IEEE International Conference on Biometrics: Theory, Applications, and Systems》;20071231;第5-6页 * |
Personalized 3D-Aided 2D Facial Landmark Localization;Zhihong Zeng et.al;《Asian Conference on Computer Vision》;20101130;第3-8页,第3.1-3.5节 * |
Also Published As
Publication number | Publication date |
---|---|
US20150178554A1 (en) | 2015-06-25 |
KR102174595B1 (ko) | 2020-11-06 |
IL246209A0 (en) | 2016-07-31 |
AU2014368997A1 (en) | 2016-07-07 |
WO2015095733A1 (en) | 2015-06-25 |
ZA201604115B (en) | 2017-08-30 |
AU2014368997B2 (en) | 2020-02-27 |
CN106068514A (zh) | 2016-11-02 |
IL246209B (en) | 2019-08-29 |
JP2017506379A (ja) | 2017-03-02 |
CA2934514A1 (en) | 2015-06-25 |
US20160314345A1 (en) | 2016-10-27 |
KR20160101973A (ko) | 2016-08-26 |
JP6411510B2 (ja) | 2018-10-24 |
SG11201604981UA (en) | 2016-07-28 |
CA2934514C (en) | 2021-04-06 |
EP3084682A1 (en) | 2016-10-26 |
MX2016007868A (es) | 2016-10-07 |
EP3084682A4 (en) | 2017-08-16 |
MX358833B (es) | 2018-09-05 |
EP3084682B1 (en) | 2019-07-24 |
US9449432B2 (en) | 2016-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106068514B (zh) | 用于在不受约束的媒体中识别面孔的***和方法 | |
Han et al. | Two-stage learning to predict human eye fixations via SDAEs | |
CN104200240B (zh) | 一种基于内容自适应哈希编码的草图检索方法 | |
Alnajar et al. | Calibration-free gaze estimation using human gaze patterns | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
CN103824051B (zh) | 一种基于局部区域匹配的人脸搜索方法 | |
CN106326857A (zh) | 基于人脸图像的性别识别方法及装置 | |
JP2017506379A5 (zh) | ||
US20220148333A1 (en) | Method and system for estimating eye-related geometric parameters of a user | |
CN108229268A (zh) | 表情识别及卷积神经网络模型训练方法、装置和电子设备 | |
CN109684969B (zh) | 凝视位置估计方法、计算机设备及存储介质 | |
CN106796449A (zh) | 视线追踪方法及装置 | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
CN108921140A (zh) | 行人再识别方法 | |
CN109558814A (zh) | 一种三维矫正和加权相似性度量学习的无约束人脸验证方法 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
Thakkar et al. | The reliability of forensic body-shape identification | |
CN110598719A (zh) | 一种依据视觉属性描述自动生成人脸图像的方法 | |
Giese et al. | Metrics of the perception of body movement | |
Kim et al. | Facial landmark extraction scheme based on semantic segmentation | |
Angelopoulou et al. | Evaluation of different chrominance models in the detection and reconstruction of faces and hands using the growing neural gas network | |
CN111723688A (zh) | 人体动作识别结果的评价方法、装置和电子设备 | |
CN111914798B (zh) | 基于骨骼关节点数据的人体行为识别方法 | |
CN110210336B (zh) | 一种低分辨率单样本人脸识别方法 | |
CN113743275A (zh) | 一种微表情类型的确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220926 Address after: Illinois, America Patentee after: MOTOROLA SOLUTIONS, Inc. Address before: British Columbia, Canada Patentee before: OBJECTVIDEO, Inc. |