CN105981008B - 学习深度人脸表示 - Google Patents

学习深度人脸表示 Download PDF

Info

Publication number
CN105981008B
CN105981008B CN201480074764.3A CN201480074764A CN105981008B CN 105981008 B CN105981008 B CN 105981008B CN 201480074764 A CN201480074764 A CN 201480074764A CN 105981008 B CN105981008 B CN 105981008B
Authority
CN
China
Prior art keywords
layer
cnn
facial image
pyramid
inclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480074764.3A
Other languages
English (en)
Other versions
CN105981008A (zh
Inventor
印奇
曹志敏
姜宇宁
范浩强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Publication of CN105981008A publication Critical patent/CN105981008A/zh
Application granted granted Critical
Publication of CN105981008B publication Critical patent/CN105981008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

人脸表示是人脸识别***的关键步骤。最优人脸表示应该是有辨别力的、鲁棒的、紧凑并且很容易实现的。虽然已经提出很多手工和基于学习的表示,但是仍存在很大的改进空间。呈现了用于人脸表示的很容易实现的深度学习框架。该框架基于金字塔卷积神经网络(CNN)。金字塔CNN采用贪婪滤波器和下采样操作,其使得训练过程能够很迅速并且是计算高效的。此外,金字塔CNN的结构可以自然地并入在多尺度人脸表示之间共享的特征,增加了得到的表示的可辨别力。

Description

学习深度人脸表示
技术领域
本发明大体上涉及图像处理,尤其涉及使用机器学习的人脸识别和表示。
背景技术
人脸识别***对数字图像或者视频帧进行图像处理,以自动标识人。人脸识别***通常将人脸图像表示为很大维度的特征向量。在获取表示之后,可以应用各种算法以进行分类、验证和/或搜索的任务。算法的性能严重依赖于表示的选取。最近,已经对基于人脸图像的现有知识设计更好的表示感兴趣。
很大维度的手工表示可以提供高准确度的人脸识别结果。然而,为了用手工表示进行人脸识别,对于每个模块需分别地仔细优化复杂的多级***。例如,多级***典型地包括用于预处理、低级编码、特征变换和更高级表示的模块。每个单独模块的手工调谐是高劳动强度的。此外,难以通过单独优化每个模块来确保整个***的性能。
因此,为了人脸识别和其他目的,需要学习人脸的表示的更好方法。
发明内容
本发明通过利用学习人脸表示的框架克服现有技术的限制。在一种方法中,框架基于用于识别人脸图像对(pairs of face images)的、利用监督学习信号的深度卷积神经网络的结构。利用监督学习信号的深度卷积神经网络导致以快速和有计算效率的方式进行人脸识别的高辨别力和紧密的人脸表示的提取。
一个方面涉及训练用于人脸识别***的金字塔卷积神经网络(CNN)。金字塔卷积神经网络(CNN)包括至少N个共享层和耦合到第N共享层的至少一个非共享层,其中N≥2。以从1到N的顺序训练从1到N的CNN层级。在一种方法中,CNN层级n包括用于接收人脸图像的输入、金字塔CNN的前n个共享层、金字塔CNN的非共享层和产生人脸图像的表示的输出。输入被耦合到第一共享层。每个共享层包括卷积层、非线性层和下采样层。此外,第n共享层耦合到非共享层,并且非共享层耦合到输出。
优选地,训练CNN层级n包括向输入端呈现人脸图像。在一种方法中,每个人脸图像在输出处产生对应的表示。处理该表示以产生度量的估计值,该度量的实际值是已知的。基于度量的估计值与度量的实际值的比较,适配第n共享层和非共享层。在一个示例中,基于人脸图像对训练金字塔CNN,并且度量是这些人脸图像对是否属于同一人。
其他方面包括与上述相关的部件、设备、***、改进、方法、处理、应用和其他技术。
附图说明
本发明具有其他优点和特征,当结合附图时,这些其他优点和特征将更容易从本发明的以下详细描述中显而易见,在附图中:
图1是人脸识别***的简化图。
图2是训练金字塔卷积神经网络(CNN)的流程图。
图3是卷积神经网络的细节图。
图4是执行人脸识别的方法的流程图。
图5是训练金字塔CNN的方法的流程图。
图6是使用金字塔CNN和基于关键点的位置比较人脸识别的性能的直方图。
图7是当不存在对于表示的长度的限制时在非约束标记人脸数据库(LFW,labeledfaces in the wild)基准上的性能。
图8图示了在训练神经网络中在不同时间点时的测试准确性取决于神经网络的数目。
附图仅为了图示的目的描绘本发明的实施例。本领域的技术人员将容易地从下面的讨论中认识到可以在不脱离本文描述的本发明的原理的情况下使用本文图示的结构和方法的替代实施例。
具体实施方式
附图和下面的描述涉及仅以例示方式的优选实施例。应该注意,依据下面的论述,本文公开的结构和方法的替代实施例将很容易被视为在不脱离要求保护的原理的情况下可以使用的可行替代。
公开的人脸识别***(和方法)包括深度卷积神经网络(本文称为“金字塔CNN”、“CNN”或者“多尺度特性共享网络”)。金字塔CNN包括两个或者更多层级,并且训练(即,适配)每一层级的神经网络。首先在人脸的一部分上训练具有相对小的输入尺寸(例如,32x32个像素)的第一层级中的网络。在训练了第一层级网络后,其第一层被固定,并且被固定的层用以训练下一层级网络中的网络。在训练第二层级时,第一层处理更大的图像(例如,48x48个像素),并且用来自第一层的处理后的图像(例如,对于每个图像/特征32x32个像素)训练第二层级网络。以这样的方式,实际被训练的网络的输入的尺寸不随着层级增加而变得更大。这种贪婪的按层训练过程继续直至所有层级上的网络都被训练为止,从而得到具有N个层级的最终网络。通过在同一层级执行多于一个网络,补偿了较低层级网络的输入区域的小覆盖范围。
金字塔CNN是被划分为多个层级的一组CNN。该神经网络包括两个或者更多共享层和至少一个非共享层。共享层可以在其他层级的训练处理中重复使用,其中,非共享层被用于指定层级中的训练。每个神经网络接收人脸图像的一部分,并且训练每个神经网络的权重以进行滤波和下采样。根据监督学习信号,在经过大量人脸图像的训练之后,金字塔CNN从人脸图像提取特征并且输出高度紧凑的表示。监督学习信号对金字塔CNN施加了标识保留要求。
本文的特征指代人脸图像的显著特性。例如,特征可以是人脸的一部分(例如,眼睛、鼻子、嘴等)的长度、形状或者尺寸、或者人脸的两部分之间的距离。特征的其他示例包括人的性别、身份等。特征典型地由向量表示来表示,向量中的不同元素或者元素的组合编码人脸的不同特性。
本文的人脸指代捕获对象的整个脸部(或者脸部的一部分)的图像文件(即,图像像素)。
人脸识别概述
图1是根据一个实施例的人脸识别***100的简化图。人脸识别***100接收目标人脸图像110T并且试图识别该人脸(即,将人脸与特定的个人相关联)。人脸识别***100还接收已知个人的参考人脸图像110R。人脸识别***100进行分析以生成指示目标人脸图像110T中的个人是否与参考人脸图像110R中的个人相同的度量150。人脸识别***100可以具有对于不同个人的参考人脸图像110R的大数据库,并且可以比较目标人脸图像110T与许多不同的参考人脸图像110R,以识别目标人脸图像110T对应的个人。
人脸识别***100包括金字塔CNN 120、分析模块130和处理器140。这些部件中的每个可以被体现为硬件、软件、固件或者其组合。这些部件一起进行人脸识别并且确定两个人脸图像110中的对象是否相同。
金字塔CNN 120接收人脸图像110作为输入,并且生成每个人脸图像的表示。可替代地,参考人脸图像的表示可以被预先计算。人脸图像的表示优选以身份保留(ID保留)的方式获取,以使得映射的空间中的距离接近地反映人脸图像的身份的语义距离,以最小化不相关因素(例如,光照、表情和姿态)的影响。此外,该表示优选在低维度空间中编码人脸图像的抽象和高级的身份信息。
分析模块130确定参考人脸图像110R中的对象与目标人脸图像110T中的对象是否匹配。分析模块130获取在金字塔CNN 120的输出处的人脸图像110的表示。另外,分析模块130基于人脸图像110的表示生成关于人脸图像110是否属于相同对象(人)的度量150。度量150可以用以进行人脸识别。典型的度量是基于计算两个向量表示之间的余弦角度或者计算两个表示之间的欧几里得(或者其他)距离。
处理器140执行指令以在人脸识别***100上进行人脸识别。处理器140从存储器(未示出)或者外部电路接收指令。指令也可以完全或者至少部分驻留在处理器140内(例如,在处理器的高速缓存存储器内)。根据指令,处理器140变换或者选择人脸图像的一部分,从而提供给金字塔CNN 120。此外,处理器140根据指令操作金字塔CNN 120和分析模块130,以进行人脸识别的核心功能。
人脸表示
根据监督学习信号训练金字塔CNN 120,以获取简洁和可区别的表示。下文参照图2描述金字塔CNN 120的详细操作。
由金字塔CNN产生的表示可以表达为从图像像素到数值向量的函数映射。
f:Rhxw→Rm (1)
在训练金字塔CNN 120时,从人脸图像110的对的训练集合学习期望的表示。这涉及将函数族参数化并使用目标函数L来选取表示提取器:
其中fθ是当使用权重θ时由金字塔CNN实现的函数,Idata是训练集合,L()是目标函数,并且θ0是优化目标函数L的权重。基本函数族f应该包含足够的复杂度,以表达所需的复杂且高级的计算。为了实行ID保留属性,应该在目标函数中使用身份信息。这导致与目的在于对数据点的密度分配建模的无监督方法相对照的监督表示学习方法。虽然无监督方法能够发现数据中显现出来的图案,但是它们的优化目标不直接与识别任务相关,所以通过无监督方法获取的学习的表示难免易受包括光照、表情和姿态的因素的影响。相反,监督方法明确施加ID保留要求。因此,通过监督方法获取的学习表示不受光照、表情和姿态影响。
在一个实施例中,人脸识别中的监督信号用人脸图像对是否属于同一个人的指示来标记人脸图像对。一个输出神经网络使用距离函数,以比较人脸图像对的表示,并且预测人脸图像对是否属于同一个人。示例损失函数是:
D(I1,I2)=α·d(fθ(I1),fθ(I2))-β(4)
其中δ(I1,I2)是指示一对的两个人脸图像I1和I2是否属于同一人的度量。fθ表示由神经网络完成的将人脸图像变换为表示的计算,并且d是用以测量两个人脸图像的表示向量之间的距离的函数。θ是被训练的网络中的权重。α和β是附加的可训练参数。
该损失函数鼓励属于同一人(或对象)的特征之间的小距离,并且惩罚不匹配的对之间的相似性。因此,一对中的两个人脸图像的表示之间的距离被用作确定每对的两个人脸图像是否用于同一人的度量。当两个人脸图像110属于同一人时,距离应该较低。当两个人脸图像110不属于同一人时,距离应该较高。以这样的方式,学习的特征显现良好的ID保留属性,并且其对于识别任务是高度特定的。与人内部的变化对应的因素将被该网络抑制。
金字塔卷积神经网络(金字塔CNN)
图2是根据一个实施例的训练金字塔CNN 120的处理的图。金字塔CNN120可以直接接收未经过任何处理的人脸图像(或者人脸图像的部分)。可替代地,金字塔CNN 120可以接收处理后的人脸图像(或者人脸图像的部分)110。金字塔CNN 120包括N个层级的卷积神经网络。在这个示例中,N=4并且不同的CNN层级被标记“层级1”到“层级4”。每个神经网络进行卷积、非线性和下采样。不同的CNN层级典型地具有不同的深度和输入尺寸,并且不同的CNN层级也共享层(在图2中被标记210)。金字塔CNN 120生成每个人脸图像110的表示,并且基于每个人脸图像110的表示适配神经网络。
金字塔CNN 120包括N个共享层210和至少一个耦合到第N共享层的非共享层220,其中N≥2。金字塔CNN 120包括数目N的CNN层级。每个CNN层级n(n=1到N)包括输入、n个共享层、非共享层和输出。
例如,图2中图示的金字塔CNN 120包括四个层级。由此,本示例中的金字塔CNN120包括四个共享层210(1)、210(2)、210(3)和210(4);非共享层220(1)、220(2)、220(3)和220(4);输入230(1)、230(2)、230(3)和230(4)以及输出240(1)、240(2)、240(3)和240(4)。
CNN层级1仅包括单个共享层210(1)。输入端230(1)耦合到第一共享层210(1),第一共享层210(1)耦合到非共享层220(1),非共享层220(1)耦合到输出240(1)。相对照,CNN层级4包括四个共享层210(1)-(4)。输入230(4)耦合到第一共享层210(1),第一共享层210(1)最终耦合最后共享层210(4),最后共享层210(4)耦合到非共享层220(4),非共享层220(4)到输出240(4)。通常而言,对于CNN层级n,输入230(n)耦合到第一共享层210(1),第一共享层210(1)最终耦合到第n共享层210(n),第n共享层210(n)耦合到非共享层220(n),非共享层220(n)耦合到输出240(n)。注意,共享层210(1)对于所有CNN层级具有相同的结构和权重,这对于每个共享层210(n)都成立。非共享层220对于所有CNN层级具有相同结构,但对于每个CNN层级具有不同的权重。
在操作时(即在不是训练时),人脸图像被输入到输入230(4),由共享层210(1)-(4)和非共享层220(4)处理,并且最后层输出240(4)产生人脸图像的表示。
在一个实施例中,以监督的贪婪方式训练金字塔CNN 120。如图2中图示,虚线轮廓指示哪些层在哪个CNN层级被训练。共享层210(1)和非共享层220(1)一起对于CNN层级1被训练。共享层210(2)和非共享层220(2)一起对于CNN层级2被训练。共享层210(1)不对于CNN层级2训练。而是,其采用从对于CNN层级1训练产生的权重。
每个共享层210包括卷积层、下采样层和非线性层。假设CNN层级1在32x32人脸图像上被训练,并且还假设每个共享层210包括2x下采样。这意味着CNN层级1接收32x32人脸图像并且共享层210(1)基于到来的32x32图像被训练。然而,CNN层级2接收64x64人脸图像,但共享层210(2)基于由于下采样而由共享层210(1)生成的到来的32x32图像/特征被训练。也就是,共享层210(2)和非共享层220(2)一起在来自第一共享层210(1)的处理后的图像/特征上训练。对于其他CNN层级和共享层也是如此。以这样的方式,用以训练每个共享层210(n)的图像/特征的尺寸不随着共享层的总数目增加而变得过分地大。对于每个CNN层级的输入可以从图像的同一集合取得。例如,32x32剪辑(clip)可以被用作对于CNN1层级的输入,64x64剪辑可以被用作对CNN层级2的输入,等等。
对于每个增加的CNN层级n,进行类似的步骤,其中前(n-1)共享层210(1)…210(n-1)被固定。第n共享层210(n)和第n非共享层220(n)一起基于来自共享层210(1)…210(n-1)的级联的处理后的图像/特征被训练。例如,在层级3,共享层210(1)和210(2)未被适配,并且共享层210(3)和非共享层220(3)一起被训练。类似地,在层级4,共享层210(1)、210(2)和210(3)未被适配,并且共享层210(4)和非共享层220(4)一起被训练。在一个实施例中,根据来自共享层210(1)…,210(n-1)的下采样,对CNN层级n的输入230(n)的尺寸随着n从1到N增加而增加。因此,输入到第n共享层210的图像/特征的尺寸对于n=1到N近似是恒定的。
表1示出金字塔CNN的监督训练中的一种方法,如关于图2说明的。
图3图示卷积神经网络层300的一个实施例。卷积神经网络层300可以用于共享层210和/或用于非共享层220。卷积神经网络300包括卷积滤波器310、非线性激活算子320和下采样算子330。
卷积神经网络层300是高非线性实数值多元函数,该函数由卷积滤波器310、非线性激活算子320和下采样算子330组成:
其中,Ii是第i层中的神经元的值。卷积滤波器310可以定义为:
其中W是卷积滤波器的权重并且B(在公式(5))中是卷积滤波器偏置。在训练期间适配W和B二者。非线性激活算子320由非线性函数g表示。函数的g示例包括超正切函数(hyper-tangent function)、修正线性函数、s型函数等。下采样可以定义为最大池化算子
开发了基于梯度的算法以估计卷积神经网络层300中的权重。因此,适配(即,训练)金字塔CNN(例如,共享层210、非共享层220或者其组合)包括适配用于卷积滤波器310的卷积滤波器权重。通过使用共享权重,相同卷积滤波器310用于层中的每个像素。由此,用以进行卷积的存储容量减小,并且改进了计算速度。
有利地,使用利用监督学习信号的金字塔CNN 120的人脸识别***100以进行人脸识别的快速和计算高效的方式实现了人脸的高辨别力且紧密的表示的提取。通过利用强监督的金字塔CNN 120,所有层级处的学习信号直接反映最终任务。由此,保证了共享层210学习提取与任务密切相关的有辨别力的信息。
金字塔CNN 120的另一解释是多尺度特征提取架构。金字塔优选可以自然地处理在人脸识别中共同的多尺度输入片(patch)。不同尺寸的图像片被馈送到对应的尺度层级处的网络。金字塔通过对更大的输入区域使用更深的网络而利用多尺度结构。深度的增加允许更高层级的网络承担对更大图像片的更复杂和抽象的计算。
在替代实施例中,多于一个非共享层220存在于同一层级,并且它们在共享它们的第一层参数的同时在不同区域上工作。因此,金字塔CNN 120还包括耦合到第N共享层210(N)的两个或者更多的非共享层220。
金字塔CNN的某些实现方式可以具有下面的特性中的一些或者全部。对CNN层级N的输入图像尺寸典型地在范围80x80到400x400内。金字塔CNN典型可以具有从1到4个共享层210,并且层之间的下采样优选在1.2到1.5的范围中并且优选小于2x。金字塔CNN也可以具有从10到100个非共享层220的任意的。图2中的框220表示所有这些非共享层。典型的卷积内核可以在尺寸从3x3到7x7的范围内。每个共享层可以存在1000到1百万个权重的任意的。对于这些尺寸的金字塔CNN,训练集合在大小上典型在50万到1千万图像之间改变。这些数字仅是表示性的。不要求设计遵守这些数字。
人脸识别的操作
图4图示根据一个实施例的使用人脸识别***100进行人脸识别的方法的流程图。人脸识别***100使用金字塔CNN 120,以生成人脸图像的表示。利用人脸图像110的对训练410金字塔CNN 120。在完成训练之后,向金字塔CNN 120的输入呈现420目标人脸图像110,并且在金字塔CNN 120的输出处获取人脸图像110的表示。然后使用人脸图像110的这些表示进行440人脸识别。例如,表示之间的距离可以用以确定两个人脸图像是否属于同一人。
图5是训练410金字塔CNN 120的方法的流程图。金字塔CNN 120接收人脸图像110的对(510)。金字塔CNN 120生成1到N个CNN层级(520)。CNN层级n包括用于接收人脸图像110的输入、前n个共享层210、非共享层220和用于产生人脸图像的表示的输出240。输入耦合到第一共享层210(1),并且第n共享层210(n)耦合到非共享层220。另外,非共享层220耦合到输出240。从层级1到层级N以该顺序训练CNN层级(530)。也就是,CNN层级1首先被训练,然后是CNN层级2,等等,直到CNN层级N。
为了训练CNN层级n,为CNN层级n呈现到CNN层级n的输入230的人脸图像110(532)。每个人脸图像110在输出240处产生对应的表示。在一个方法中,人脸图像110的对被呈现给CNN层级n的输入230(n)。此外,表示被处理以产生度量150的估计(534)。例如,度量150是每对的两个人脸图像110是否属于同一人。度量150也可以是该对中的两个人脸图像110的表示之间的距离。度量的实际值是已知的。另外,基于度量150的估计值与度量150的实际值来适配第n共享层210(n)和非共享层220(n)。适配第n共享层210(n)和非共享层220(n)可以是基于在两个人脸图像110属于同一人时减小该距离并且在两个人脸图像不属于同一人时增加该距离。
仿真结果
非约束标记人脸数据库(LFW)是人脸识别***的富有挑战性的基准。其包含从网络获得的多于13000个图片。实验协议是评估验证两个图像是否属于同一人的准确性。将使用金字塔CNN的人脸识别的结果与使用其他方法的人脸识别的结果比较。
图6是比较使用金字塔CNN 120和基于地标的位置(LBP)的人脸识别的性能的直方图。图6中的直方图具有两个绘图。每对中的左绘图610是金字塔CNN 120的准确性结果。每对中的右绘图620是延伸至基于地标的多尺度特征提取方案的金字塔CNN 120的准确性结果。金字塔建立在不同地标位置上,并且金字塔的所有层级处的输出被连接以增加表示的维度。
为了比较,对整个人脸图像进行使用四层级金字塔CNN 120的人脸识别。最后层级网络的输出被取为图像的表示,并且其他层级仅仅被构建用于训练。在包含数千人的照片的外部人脸相册上学习该表示,并且在LFW基准上对其测试。
图6示出低数量维度的此特征的准确性。LBP基线当其维度高于1000时具有96.3%的准确性。见Chen,D.、Cao,X.、Wen,F.、Sun,J.:Blessing of dimensionality:High-dimensional feature and its efficient compression for face verification.在:Computer Vision and Pattern Recognition(CVPR),2013IEEE会议,IEEE(2013)3025–3032。然而,其性能在低维度设置时很差。如图示,金字塔CNN 120的性能在维度减小时缓慢下降,并且金字塔CNN 120仍以仅8维度表示实现高识别准确性(在LFW基准上的85.8%)。相对照,LBP基线当被减小到8维度时实现仅66%的准确性。因此,使用金字塔CNN 120的人脸识别可以以紧凑特征维度实现高准确性。传统的方法典型地使用大于1K字节的人脸表示,而金字塔CNN可以使用4到64字节的并且优选不多于64维度的人脸表示维持良好的人脸辨别力。
图7是当不存在对于表示的长度的限制时非约束人脸数据库(LFW)基准的性能。图7中的面板包括五个绘图。最右下绘图710是使用4特征组合方法的人脸识别的结果。这个方法在人脸识别中组合了四个非深度学习传统特征,如在Chen,D.、Cao,X.、Wang,L.、Wen,F.、Sun,J.的题为Bayesian face revisited:Ajoint formulation的论文(载ComputerVision–ECCV 2012,Springer(2012)566–579)中所描述的。下一绘图720是使用Tomvs.Pete+Attribute的人脸识别的结果,如在Berg,T.、Belhumeur,P.N.的题为Tom-vs-peteclassifiers and identity-preserving alignment for face verification(载BMVC,第1卷,(2012)5)的论文中所描述的。绘图730是使用LBP的人脸识别的结果。见Chen,D.、Cao,X.、Wen,F.、Sun,J.的题为Blessing of dimensionality:High-dimensional feature andits efficient compression for face verification的论文(载:Computer Vision andPattern Recognition(CVPR),2013IEEE会议,IEEE(2013)3025–3032)。绘图740是使用金字塔CNN 120的人脸识别的结果。最后,黑线750是在剪裁的人脸上的人的结果。
如图7所示,使用金字塔CNN 120的人脸识别实现了在LFW基准上的技术发展水平(state of the art)性能。具有延伸特征共享的金字塔CNN 120实现在LFW基准上的技术发展水平性能(97.3%)。另外,当通过边界框剪裁人脸时,准确性非常接近人的性能。
图8图示在依赖于网络的数目的训练中在不同时间点的测试准确性。图8图示金字塔CNN 120中的层共享机制的效果。图8中的面板包括三个绘图。绘图810是一个大网络的结果。绘图820是在同一尺度层级具有一个网络的金字塔CNN 120的结果。绘图830是在同一尺度层级具有四个网络的金字塔CNN 120的结果。
给定相同时间量,由金字塔CNN 120训练的网络达到明显更好的结果。此外,在金字塔中的一个尺度层级中使用更多网络改进了性能。在更低尺度层级中训练多个网络也以缓和减慢为代价而改进了性能。
虽然详细描述包含很多细节,但是这些不应该被视为限制本发明的范围,而是仅为例示本发明的不同示例和方面。应该理解本发明的范围包括没有在上面详细讨论的其他实施例。例如,在金字塔CNN 120中公开的原理也可以应用到除了人脸识别和表示之外的其他区域或者对象。可以在不脱离所附权利要求中定义的本发明的精神和范围的情况下,在本文公开的本发明的方法和装置的布置、操作和细节中做出对于本领域技术人员将显而易见的各种其他修改、改变和变型。因此,本发明的范围应该由所附权利要求和它们的法律等效物确定。
在替代实施例中,本发明实现在计算机硬件、固件、软件和/或其组合中。本发明的装置可以以有形地包含在机器可读存储设备中的用于由可编程处理器执行的计算机程序产品而实现,并且本发明的方法步骤可以由可编程处理器进行,该可编程处理器执行指令的程序以通过对输入数据操作并且生成输出来进行本发明的功能。本发明可以有利地以可在可编程***上执行的一个或者多个计算机程序而实现,该可编程***包括:至少一个可编程处理器,耦合以从数据存储***接收数据和指令,并且向数据存储***发送数据和指令;至少一个输入设备;和至少一个输出设备。每个计算机程序可以以高级程序或者面向对象的编程语言实现,或者如果需要的话以汇编或者机器语言实现;并且在任何情况下,语言可以被编辑的或者解释的语言。适当的处理器举例来说包括通用和专用微处理器二者。通常,处理器将从只读存储器和/或随机存取存储器接收指令和数据。通常,计算机将包括一个或者多个大容量存储设备,用于存储数据文件;这样的设备包括磁盘,诸如内部硬盘和可移除盘;磁光盘;和光盘。适合于有形包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,举例来说包括半导体存储器器件,诸如EPROM、EEPROM和闪存存储器器件;诸如内部硬盘和可移除盘之类的磁盘;磁光盘;和CD-ROM盘。以上的任意者可以由ASIC(专用集成电路)和其他形式的硬件补充或者并入ASIC和其他形式的硬件中。

Claims (21)

1.一种用于训练金字塔卷积神经网络(CNN)的计算机实现的方法,该金字塔卷积神经网络包括至少N个共享层和耦合到第N共享层的至少一个非共享层,其中N≥2,所述方法包括:
以CNN层级1到N的顺序训练CNN层级1到N,其中,CNN层级n包括用于接收人脸图像的输入、金字塔CNN的前n个共享层、金字塔CNN的非共享层、和产生所述人脸图像的表示的输出;其中,所述输入耦合到所述n个共享层中的第一个;每个共享层包括卷积层、非线性层和下采样层;所述n个共享层中的第n个耦合到所述非共享层;并且所述非共享层耦合到所述输出;
其中,训练CNN层级n包括:
向所述输入呈现人脸图像,每个人脸图像在所述输出处产生对应的表示;
处理所述表示,以产生度量的估计值,所述度量的实际值是已知的;以及
基于所述度量的估计值与所述度量的实际值的比较,适配第n共享层和所述非共享层。
2.如权利要求1所述的计算机实现的方法,其中:
向所述输入呈现人脸图像包括向所述输入呈现人脸图像对,
其中,已知每对中的两个人脸图像是否属于同一人;
所述度量是每对中的两个人脸图像是否属于同一人;以及
适配包括基于每对中的两个人脸图像是否属于同一人的估计的度量与所述两个人脸图像实际是否属于同一人的已知值的比较,适配所述第n共享层和所述非共享层。
3.如权利要求2所述的计算机实现的方法,其中,所述度量是一对中的两个人脸图像的表示之间的距离。
4.如权利要求3所述的计算机实现的方法,其中,适配包括基于当所述两个人脸图像属于同一人时减小所述距离并且当所述两个人脸图像不属于同一人时增加所述距离来适配所述第n共享层和所述非共享层。
5.如权利要求1所述的计算机实现的方法,其中,训练CNN层级n还包括不适配前(n-1)个共享层。
6.如权利要求1所述的计算机实现的方法,其中,在训练CNN层级n时,第n共享层的输入的尺寸对于n=1到N近似是恒定的。
7.如权利要求1所述的计算机实现的方法,其中,在训练CNN层级n时,第1共享层的输入的尺寸随着n从1增加到N而增加。
8.如权利要求7所述的计算机实现的方法,其中,在训练CNN层级n时,用作第1共享层的输入的人脸图像从人脸图像的公用集合中剪辑,但随着n从1增加到N而构成人脸图像的更大剪辑。
9.如权利要求1所述的计算机实现的方法,其中,适配第n共享层包括适配在所述第n共享层内的卷积中使用的卷积滤波器的卷积滤波器权重。
10.如权利要求1所述的计算机实现的方法,其中,对于所有共享层,下采样不高于2倍下采样。
11.如权利要求1所述的计算机实现的方法,其中,所述人脸图像的表示不多于8个维度。
12.如权利要求1所述的计算机实现的方法,其中,所述人脸图像的表示不多于64字节。
13.如权利要求1所述的计算机实现的方法,其中,经过训练的金字塔CNN在LFW基准上是大于97%准确的。
14.如权利要求1所述的计算机实现的方法,其中,所述金字塔CNN还包括耦合到第N共享层的两个或者更多的非共享层。
15.如权利要求14所述的计算机实现的方法,其中,所述金字塔CNN包括耦合到第N共享层的至少100个非共享层。
16.如权利要求1所述的计算机实现的方法,其中,N小于5。
17.如权利要求1所述的计算机实现的方法,其中,下采样小于2倍。
18.如权利要求1所述的计算机实现的方法,其中,每个共享层包含要适配的在1000个和1百万个之间的权重。
19.一种处理人脸图像的方法,该方法包括:
向金字塔CNN的输入呈现人脸图像,所述金字塔CNN根据权利要求1的计算机实现的方法训练得到;以及
在所述金字塔CNN的输出处获取所述人脸图像的表示。
20.如权利要求19所述的处理人脸图像的方法,还包括:
使用所述人脸图像的表示来进行人脸识别。
21.一种配置为存储程序代码的非瞬时计算机可读介质,所述程序代码包括用于训练金字塔卷积神经网络(CNN)的指令,所述金字塔卷积神经网络包括至少N个共享层和耦合到第N共享层的至少一个非共享层,其中N≥2,所述指令在由处理器执行时使得所述处理器:
以CNN层级1到N的顺序训练CNN层级1到N,其中,CNN层级n包括用于接收人脸图像的输入、金字塔CNN的前n个共享层、金字塔CNN的非共享层、和产生所述人脸图像的表示的输出;其中,所述输入耦合到所述n个共享层中的第一个;每个共享层包括卷积层、非线性层和下采样层;所述n个共享层中的第n个耦合到所述非共享层;并且所述非共享层耦合到所述输出;
其中,训练CNN层级n包括:
向所述输入呈现所述人脸图像,每个人脸图像在所述输出处产生对应的表示;
处理所述表示,以产生度量的估计值,所述度量的实际值是已知的;以及
基于所述度量的估计值与所述度量的实际值的比较,适配第n共享层和所述非共享层。
CN201480074764.3A 2014-05-27 2014-05-27 学习深度人脸表示 Active CN105981008B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/078553 WO2015180042A1 (en) 2014-05-27 2014-05-27 Learning deep face representation

Publications (2)

Publication Number Publication Date
CN105981008A CN105981008A (zh) 2016-09-28
CN105981008B true CN105981008B (zh) 2019-05-28

Family

ID=54697828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480074764.3A Active CN105981008B (zh) 2014-05-27 2014-05-27 学习深度人脸表示

Country Status (4)

Country Link
US (1) US9400919B2 (zh)
EP (1) EP3149611A4 (zh)
CN (1) CN105981008B (zh)
WO (1) WO2015180042A1 (zh)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105960647B (zh) * 2014-05-29 2020-06-09 北京旷视科技有限公司 紧凑人脸表示
MX2017008086A (es) * 2014-12-17 2017-10-31 Nokia Technologies Oy Deteccion de objetos con red neuronal.
JP2016146174A (ja) * 2015-02-06 2016-08-12 パナソニックIpマネジメント株式会社 決定方法およびプログラム
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN106548127B (zh) * 2015-09-18 2022-11-04 松下电器(美国)知识产权公司 图像识别方法
US10275684B2 (en) * 2015-11-04 2019-04-30 Samsung Electronics Co., Ltd. Authentication method and apparatus, and method and apparatus for training a recognizer
CN105678232B (zh) * 2015-12-30 2019-01-22 中通服公众信息产业股份有限公司 一种基于深度学习的人脸图片特征提取与对比方法
US10210430B2 (en) 2016-01-26 2019-02-19 Fabula Ai Limited System and a method for learning features on geometric domains
US10013653B2 (en) * 2016-01-26 2018-07-03 Università della Svizzera italiana System and a method for learning features on geometric domains
US10572777B2 (en) * 2016-03-11 2020-02-25 Nec Corporation Deep deformation network for object landmark localization
WO2017166137A1 (zh) * 2016-03-30 2017-10-05 中国科学院自动化研究所 基于多任务深度学习的自然图像美感质量评估方法
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US11461919B2 (en) * 2016-04-21 2022-10-04 Ramot At Tel Aviv University Ltd. Cascaded neural network
CN105930797B (zh) * 2016-04-21 2019-03-26 腾讯科技(深圳)有限公司 一种人脸验证方法及装置
US10032067B2 (en) 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
JP6708044B2 (ja) * 2016-07-28 2020-06-10 富士通株式会社 画像認識装置、画像認識プログラム、画像認識方法および認識装置
US10083347B2 (en) * 2016-07-29 2018-09-25 NTech lab LLC Face identification using artificial neural network
CN106295547A (zh) * 2016-08-05 2017-01-04 深圳市商汤科技有限公司 一种图像比对方法及图像比对装置
CN106469304A (zh) * 2016-09-22 2017-03-01 西安理工大学 基于深度卷积神经网络的票据中手写签名位置定位方法
US11023711B2 (en) 2016-10-10 2021-06-01 University Of Maryland, College Park All-in-one convolutional neural network for face analysis
CN106529571B (zh) * 2016-10-14 2018-04-20 广州视源电子科技股份有限公司 基于神经网络的多层图像特征提取建模、图像识别方法及装置
KR102415506B1 (ko) 2016-10-26 2022-07-01 삼성전자주식회사 뉴럴 네트워크 간소화 방법 및 장치
CN106339701A (zh) * 2016-10-31 2017-01-18 黄建文 一种人脸图像识别方法及***
CN106780658B (zh) 2016-11-16 2021-03-09 北京旷视科技有限公司 人脸特征添加方法、装置及设备
CN106780662B (zh) * 2016-11-16 2020-09-18 北京旷视科技有限公司 人脸图像生成方法、装置及设备
CN106778472A (zh) * 2016-11-17 2017-05-31 成都通甲优博科技有限责任公司 基于深度学习的输电走廊常见侵入物目标检测与识别方法
CN106845421B (zh) * 2017-01-22 2020-11-24 苏州飞搜科技有限公司 基于多区域特征与度量学习的人脸特征识别方法及***
US10210627B1 (en) * 2017-01-23 2019-02-19 Amazon Technologies, Inc. Image processing system for determining metrics of objects represented therein
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression
CN108229281B (zh) * 2017-04-25 2020-07-17 北京市商汤科技开发有限公司 神经网络的生成方法和人脸检测方法、装置及电子设备
WO2018218643A1 (en) * 2017-06-02 2018-12-06 Shanghaitech University Method and apparatus for estimating depth of field information
CN107423701B (zh) * 2017-07-17 2020-09-01 智慧眼科技股份有限公司 基于生成式对抗网络的人脸非监督特征学习方法及装置
US11755889B2 (en) * 2017-10-10 2023-09-12 Nokia Technologies Oy Method, system and apparatus for pattern recognition
CN107679501B (zh) * 2017-10-12 2021-04-30 中科视拓(北京)科技有限公司 一种基于标签自提纯的深度学习方法
CN107679510A (zh) * 2017-10-19 2018-02-09 广州智能装备研究院有限公司 一种基于深度学习的银行客户识别***及方法
CN107818314B (zh) * 2017-11-22 2019-03-19 北京达佳互联信息技术有限公司 脸部图像处理方法、装置及服务器
CN107992807B (zh) * 2017-11-22 2020-10-30 浙江大华技术股份有限公司 一种基于cnn模型的人脸识别方法及装置
WO2019100436A1 (en) 2017-11-22 2019-05-31 Zhejiang Dahua Technology Co., Ltd. Methods and systems for face recognition
US10528800B2 (en) 2018-01-10 2020-01-07 International Business Machines Corporation Automated facial recognition detection
CN108304788B (zh) * 2018-01-18 2022-06-14 陕西炬云信息科技有限公司 基于深度神经网络的人脸识别方法
CN108073917A (zh) * 2018-01-24 2018-05-25 燕山大学 一种基于卷积神经网络的人脸识别方法
US10832137B2 (en) * 2018-01-30 2020-11-10 D5Ai Llc Merging multiple nodal networks
US10938852B1 (en) 2020-08-14 2021-03-02 Private Identity Llc Systems and methods for private authentication with helper networks
US10721070B2 (en) * 2018-03-07 2020-07-21 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11392802B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11265168B2 (en) 2018-03-07 2022-03-01 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11210375B2 (en) 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US11789699B2 (en) 2018-03-07 2023-10-17 Private Identity Llc Systems and methods for private authentication with helper networks
US11489866B2 (en) 2018-03-07 2022-11-01 Private Identity Llc Systems and methods for private authentication with helper networks
US11394552B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11502841B2 (en) 2018-03-07 2022-11-15 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11170084B2 (en) 2018-06-28 2021-11-09 Private Identity Llc Biometric authentication
US11138333B2 (en) 2018-03-07 2021-10-05 Private Identity Llc Systems and methods for privacy-enabled biometric processing
JP7179835B2 (ja) * 2018-04-12 2022-11-29 日本電信電話株式会社 モデル生成装置、モデル生成方法、プログラム
CN110490028A (zh) * 2018-05-15 2019-11-22 成都视观天下科技有限公司 基于深度学习的人脸识别网络训练方法、设备及存储介质
US11651206B2 (en) 2018-06-27 2023-05-16 International Business Machines Corporation Multiscale feature representations for object recognition and detection
CN110717929A (zh) 2018-07-11 2020-01-21 腾讯科技(深圳)有限公司 图像目标检测方法、装置及存储介质
CN109118456B (zh) * 2018-09-26 2021-07-23 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109272061B (zh) * 2018-09-27 2021-05-04 安徽理工大学 一种包含两个cnn的深度学习模型的构建方法
CN109145877A (zh) * 2018-09-29 2019-01-04 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN110119760B (zh) * 2019-04-11 2021-08-10 华南理工大学 一种基于层次化多尺度循环神经网络的序列分类方法
CN110119686B (zh) * 2019-04-17 2020-09-25 电子科技大学 一种基于卷积神经网络的安全帽实时检测方法
CN110164109A (zh) * 2019-04-18 2019-08-23 深圳职业技术学院 一种基于深度学习的行人目标跟踪方法
CN110765833A (zh) * 2019-08-19 2020-02-07 中云智慧(北京)科技有限公司 一种基于深度学习的人群密度估计方法
CN110880018B (zh) * 2019-10-29 2023-03-14 北京邮电大学 一种卷积神经网络目标分类方法
CN111062478A (zh) * 2019-12-18 2020-04-24 天地伟业技术有限公司 基于神经网络的特征压缩算法
US11769056B2 (en) 2019-12-30 2023-09-26 Affectiva, Inc. Synthetic data for neural network training using vectors
CN111523596B (zh) * 2020-04-23 2023-07-04 北京百度网讯科技有限公司 目标识别模型训练方法、装置、设备以及存储介质
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
US11947626B2 (en) * 2020-11-10 2024-04-02 Nec Corporation Face recognition from unseen domains via learning of semantic features
CN112288044B (zh) * 2020-12-24 2021-07-27 成都索贝数码科技股份有限公司 基于树型结构的多尺度残差网络的新闻画面属性识别方法
CN113192076B (zh) * 2021-04-09 2022-03-15 湖北工业大学 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法
CN113569732B (zh) * 2021-07-27 2023-06-06 厦门理工学院 基于并行共享多任务网络的人脸属性识别方法及***
CN113343955B (zh) * 2021-08-06 2022-04-08 北京惠朗时代科技有限公司 一种基于深度金字塔的人脸识别智能尾箱应用方法
CN114842527A (zh) * 2022-04-01 2022-08-02 武汉虹信技术服务有限责任公司 一种基于智慧城市的分级人脸识别***及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544705A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774129A (en) 1995-06-07 1998-06-30 Massachusetts Institute Of Technology Image analysis and synthesis networks using shape and texture information
US6038337A (en) 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
JP5709410B2 (ja) 2009-06-16 2015-04-30 キヤノン株式会社 パターン処理装置及びその方法、プログラム
JP5615088B2 (ja) 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
JP5777367B2 (ja) * 2011-03-29 2015-09-09 キヤノン株式会社 パターン識別装置、パターン識別方法及びプログラム
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN102750544B (zh) * 2012-06-01 2015-01-14 浙江捷尚视觉科技股份有限公司 基于车牌识别的未扣紧安全带违章驾驶检测***及方法
US20140019390A1 (en) * 2012-07-13 2014-01-16 Umami, Co. Apparatus and method for audio fingerprinting
US9275269B1 (en) 2012-11-09 2016-03-01 Orbeus, Inc. System, method and apparatus for facial recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544705A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Learning Deep Face Representation;Haoqiang Fan等;《arxiv.org/abs/1403.2802》;20140312;第1-10页

Also Published As

Publication number Publication date
US20150347820A1 (en) 2015-12-03
US9400919B2 (en) 2016-07-26
EP3149611A4 (en) 2017-08-09
CN105981008A (zh) 2016-09-28
WO2015180042A1 (en) 2015-12-03
EP3149611A1 (en) 2017-04-05

Similar Documents

Publication Publication Date Title
CN105981008B (zh) 学习深度人脸表示
KR102596897B1 (ko) 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN111310731B (zh) 基于人工智能的视频推荐方法、装置、设备及存储介质
EP3388978B1 (en) Image classification method, electronic device, and storage medium
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
CN105678250B (zh) 视频中的人脸识别方法和装置
Zhu et al. Recover canonical-view faces in the wild with deep neural networks
US9514356B2 (en) Method and apparatus for generating facial feature verification model
CN109492643A (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
US20170124409A1 (en) Cascaded neural network with scale dependent pooling for object detection
CN106408037B (zh) 图像识别方法及装置
CN110321870B (zh) 一种基于lstm的掌静脉识别方法
Tiong et al. Implementation of multimodal biometric recognition via multi-feature deep learning networks and feature fusion
CN110008909B (zh) 一种基于ai的实名制业务实时稽核***
CN103136533A (zh) 基于动态阈值的人脸识别方法及装置
US20100111375A1 (en) Method for Determining Atributes of Faces in Images
JP6924031B2 (ja) オブジェクト検出装置及びこれらのプログラム
Hebbale et al. Real time COVID-19 facemask detection using deep learning
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN110321871B (zh) 一种基于lstm的掌静脉识别***及方法
Diyasa et al. Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN
CN108229257A (zh) 一种基于深度学习和Spark的人脸识别特征并行训练方法
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant