CN110728330A - 基于人工智能的对象识别方法、装置、设备及存储介质 - Google Patents

基于人工智能的对象识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110728330A
CN110728330A CN201911013447.1A CN201911013447A CN110728330A CN 110728330 A CN110728330 A CN 110728330A CN 201911013447 A CN201911013447 A CN 201911013447A CN 110728330 A CN110728330 A CN 110728330A
Authority
CN
China
Prior art keywords
binary
image
mask
occlusion
object image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911013447.1A
Other languages
English (en)
Inventor
宋凌雪
龚迪洪
李志鋒
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911013447.1A priority Critical patent/CN110728330A/zh
Publication of CN110728330A publication Critical patent/CN110728330A/zh
Priority to PCT/CN2020/117764 priority patent/WO2021077984A1/zh
Priority to US17/520,612 priority patent/US20220058426A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于人工智能的对象识别方法、装置、设备及存储介质,涉及人工智能技术,方法包括:检测待识别图像的待识别对象的潜在的遮挡区域,获取表征待识别对象的遮挡区域以及未遮挡区域的二值图像;从二值图像中获取表征遮挡区域的遮挡二值图像块;基于获取的遮挡二值图像块,查询二值掩码字典包括的遮挡二值图像块与二值掩码的映射关系,得到对应遮挡二值图像块的二值掩码;将基于每个遮挡二值图像块查询到的二值掩码进行合成,得到对应二值图像的二值掩码;基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征,确定待识别图像与预存对象图像的匹配关系,通过本发明,能够提高识别遮挡对象的准确性。

Description

基于人工智能的对象识别方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种基于人工智能的对象识别方法、装置、设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。
深度学习(DL,Deep Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
随着人工智能技术的发展近年来,深度学习在人工智能技术中的对象识别领域已经处于支配地位,但是基于目前的深度学习算法,在对象被部分遮挡的情况下,算法识别性能也会遭遇严重下降。
发明内容
本发明实施例提供一种基于人工智能的对象识别方法、装置及存储介质,能够保持识别非遮挡对象的识别准确率,且能够提高识别部分遮挡对象的识别准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种基于人工智能的对象识别方法,包括:
检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像;
从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块;
基于所述获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应所述遮挡二值图像块的二值掩码;
将基于每个所述遮挡二值图像块查询到的二值掩码进行合成,得到对应所述二值图像的二值掩码;
基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系。
本发明实施例提供一种基于人工智能的对象识别装置,包括:
遮挡检测模块,用于检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像;
遮挡二值图像块获取模块,用于从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块;
二值掩码查询模块,用于基于所述获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应所述遮挡二值图像块的二值掩码;
二值掩码合成模块,用于将基于每个所述遮挡二值图像块查询到的二值掩码进行合成,得到对应所述二值图像的二值掩码;
匹配关系确定模块,用于基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系。
在上述方案中,所述遮挡二值图像块获取模块,还用于:
将所述二值图像分割为多个二值图像块;
确定分割得到的每个二值图像块中遮挡像素的数目比例;
当所述遮挡像素的数目比例超过数目比例阈值时,将对应的二值图像块确定为表征所述遮挡区域的遮挡二值图像块。
在上述方案中,所述二值掩码查询模块,还用于:
获取对应所述遮挡二值图像块的位置编号;
基于对应所述遮挡二值图像块的位置编号,在所述二值掩码字典中查询所述遮挡二值图像块的位置编号与二值掩码的映射关系。
在上述方案中,所述匹配关系确定模块,还用于:
确定所述预存对象图像的特征以及所述待识别图像的特征;
将所述二值掩码分别与所述预存对象图像的特征以及所述待识别图像的特征进行乘运算,得到对应所述预存对象图像的预存特征以及对应所述待识别图像的待识别特征;
确定所述预存特征与所述待识别特征之间的相似度,当所述相似度超过相似度阈值时,确定所述待识别图像包括的对象与所述预存对象图像包括的对象属于相同类别。
在上述方案中,所述装置还包括:
二值掩码字典构建模块,用于:
基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合;
其中,所述对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本;
基于基础对象识别模型以及掩码生成模型,构建成对差分孪生网络模型;
基于所述训练样本集合,训练所述成对差分孪生网络模型;
基于经过训练的成对差分孪生网络模型,构建所述二值掩码字典;
其中,所述二值掩码字典的索引是所述遮挡二值图像块,所述二值掩码字典的索引项是所述二值掩码。
在上述方案中,所述二值掩码字典构建模块,还用于:
获取所述对象图像数据库中的对象图像样本,并对所述对象图像样本进行均匀分割,以获取对应不同对象图像样本块的位置编号;
针对所述位置编号在所述对象图像样本中对应的对象图像样本块,进行遮挡处理;
将所述对象图像样本以及经过遮挡处理的对象图像样本,构造为针对所述位置编号的对象图像样本对;
基于不同位置编号的对象图像样本对,形成所述训练样本集合。
在上述方案中,所述二值掩码字典构建模块,还用于:
初始化所述成对差分孪生网络模型中的掩码生成模型,并初始化包括输入样本、输入样本特征、分类概率、以及所述掩码生成模型参数的损失函数;
在所述成对差分孪生网络模型每次迭代训练过程中执行以下处理:
将所述训练样本集合包括的对象图像样本对作为输入样本,通过所述成对差分孪生网络模型对所述输入样本进行特征提取,得到所述输入样本特征;
通过所述对象识别模型对所述经过遮挡处理的对象图像样本进行分类识别,得到所述分类概率;
将所述输入样本、所述输入样本特征和所述分类概率代入所述损失函数,以确定所述损失函数取得最小值时对应的成对差分孪生网络模型参数;
根据所确定的掩码生成模型参数更新所述成对差分孪生网络模型。
在上述方案中,所述二值掩码字典构建模块,还用于:
将所述训练样本集合中的针对同一位置编号的对象图像样本对作为所述输入样本,通过所述成对差分孪生网络模型中的卷积层对所述输入样本进行特征提取,得到分别对应所述对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征;
通过所述成对差分孪生网络模型中的掩码生成模型对所述第一特征和所述第二特征的差值的绝对值进行掩码生成处理,得到针对所述位置编号的掩码;
通过所述掩码分别对所述第一特征以及所述第二特征进行乘运算,得到所述输入样本特征。
在上述方案中,所述二值掩码字典构建模块,还用于:
通过所述成对差分孪生网络模型对同一位置编号的对象图像样本对进行掩码提取,得到对应所述位置编号的掩码集合;
对所述掩码集合中的每个掩码进行归一化处理,并基于所述每个掩码的归一化结果计算平均值,以确定对应所述位置编号的平均掩码;
将对应所述位置编号的遮挡二值图像块作为所述二值掩码字典的索引,并对所述平均掩码进行二值化,以将生成的所述二值掩码作为所述二值掩码字典的索引项。
在上述方案中,所述装置还包括:
对象识别模型训练模块,用于:
基于由对象图像数据库构成的训练样本集合,训练用于获取预存对象图像的特征以及所述待识别图像的特征的基础对象识别模型;
基于所述训练样本集合,训练用于确定所述待识别图像与所述预存对象图像的匹配关系的对象识别模型;
其中,所述对象识别模型包括所述基础对象识别模型以及二值掩码处理模块。
在上述方案中,所述对象识别模型训练模块,还用于:
初始化所述对象识别模型的全连接层,并初始化包括输入样本、分类识别结果、以及所述对象识别模型中全连接层参数的损失函数;
在所述对象识别模型每次迭代训练过程中执行以下处理:
将所述训练样本集合包括的经过遮挡处理的对象图像样本以及在所述二值掩码字典中对应的二值掩码作为所述输入样本,通过所述对象识别模型对所述输入样本进行分类识别,得到对应所述输入样本的分类识别结果;
将所述输入样本和所述分类识别结果代入所述损失函数,以确定所述损失函数取得最小值时对应的对象识别模型中全连接层参数;
根据所确定的全连接层参数更新所述对象识别模型。
在上述方案中,所述装置还包括:
仿射变换模块,用于:
检测所述待识别图像中待识别对象的关键点,并确定所述关键点的坐标位置;
根据所述关键点的坐标位置,对所述待识别对象进行仿射变换,以将所述关键点对齐到与所述预存对象图像一致的标准模板位置。
本发明实施例提供一种基于人工智能的对象识别设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现所述基于人工智能的对象识别方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现所述基于人工智能的对象识别方法。
本发明实施例具有以下有益效果:
本发明实施例提供的基于人工智能的对象识别方法实现了在待识别对象被遮挡的情况下,遮挡区域对待识别对象的特征元素的产生的影响被抑制,使得遮挡对象被识别的准确性大幅提高的技术效果。
附图说明
图1是相关技术中的通过掩膜网络进行遮挡识别的示意图;
图2是本发明实施例提供的基于人工智能的对象识别***架构的一个可选的结构示意图;
图3是本发明实施例提供的基于人工智能的对象识别的服务器200的结构示意图;
图4是本发明实施例提供的基于人工智能的对象识别方法的一个可选的流程示意图;
图5A-5D是本发明实施例提供的基于人工智能的对象识别方法的一个可选的流程示意图;
图6是本发明实施例提供的基于人工智能的对象识别***的进行对象识别的流程示意图;
图7是本发明实施例提供的基于人工智能的对象识别方法的人脸图像的分割示意图;
图8是本发明实施例提供的基于人工智能的对象识别方法中的成对差分孪生网络的结构示意图;
图9是本发明实施例提供的基于人工智能的对象识别方法的二值掩码字典中的每个索引项Mj的计算流程示意图;
图10是本发明实施例提供的基于人工智能的对象识别方法中合成待识别人脸图像的二值掩码M的流程示意图;
图11是本发明实施例提供的基于人工智能的对象识别方法中特征提取的示意图;
图12是本发明实施例提供的基于人工智能的对象识别方法的模型构建示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)卷积特征f(·):本文中指的是卷积神经网络卷积层的输出,通常是具有C个通道,高为H,宽为W的三维张量,即f(·)∈RC*H*W
2)卷积特征元素:坐标为(c,h,w)的张量元素。
3)卷积特征的同一空间位置的特征元素:h维和w维坐标相同的C个通道的元素。
4)掩码:与顶层卷积特征大小相同的三维张量
深度学习在对象识别领域已经处于支配地位,然而,相关技术的深度学习算法在部分遮挡条件下也会遭遇严重的性能下降。参见图1,图1是相关技术中的通过掩膜网络进行遮挡识别的示意图。在相关技术中,在基础卷积神经网络的中层嵌入一个掩膜网络模块,形成识别网络,该模块利用两层卷积直接从输入对象图像中学习一组权值M(i,j),每个权值与基础卷积网络中层卷积特征的对应空间位置的特征相乘,通过端到端的训练学习,使该模块对有用的特征输出较高的权值,对被遮挡破坏的特征输出较低的权值,从而达到减弱遮挡影响的目的。
然而,该方案的掩膜网络模块分支对卷积特征上相同空间位置所有通道的特征元素输出相同的权值,即认为卷积特征每个通道的特征元素受到遮挡影响的情况是一致的,如图1所示,由原始特征U变换到加权之后的特征V,在通道维度上,特征元素并未经过不同加权处理,本发明经分析和实验验证发现,即使是对卷积特征上的同一空间位置,各个通道此位置的特征元素值在遮挡条件下的变化情况也是存在较大差异的,因此,相关技术的方案在原理上存在着漏洞,在对象识别***的应用场景中,通常是计算一张待识别对象的特征与数据库中各对象特征之间的相似度,然后进行识别。相关技术中的方案的思路仅仅是降低待识别遮挡对象特征中遮挡部分的影响,并没有解决计算待识别对象特征与数据库中对象特征相似度时存在的信息不一致性,例如对一张戴墨镜的待识别对象,该方案仅仅使墨镜部分尽可能少地影响测试对象的特征,而数据库中的无遮挡对象在该方案的网络结构下仍会保留被墨镜遮挡的原始部分的特征,因此在计算相似度时该原始部分的区域仍会造成很强的不一致性影响,那么原始部分被遮挡的影响实际上还是存在的。
因而,本申请要解决的问题是:基于一般识别场景(无遮挡或少遮挡)下性能良好的深度卷积网络,提出一种对遮挡鲁棒的识别***,从人眼的视觉经验出发,显式的找到任意遮挡条件下被破坏的卷积特征元素,并在对待识别对象进行识别时,将这些特征元素携带的干扰信息从计算相似度的步骤中剔除,确保识别是根据待识别对象中未被遮挡的部分进行的,符合人眼的视觉经验。
在本发明实施例中提出一种成对差分孪生网络结构,来显式地学习有遮挡区域与被遮挡破坏的特征元素之间的映射关系,基于此映射关系,建立一个二值掩码字典,字典中的每个索引项表示某块区域发生遮挡时,受影响大的特征元素,根据这一字典,能够得到任意遮挡条件下应该被去除的特征元素,在识别时抑制这些元素的响应值,从而实现对遮挡的鲁棒性。
本发明实施例提供一种基于人工智能的对象识别方法、装置、设备和存储介质,能够在待识别对象被遮挡的情况下,抑制遮挡区域对待识别对象的特征元素的产生的影响,使得遮挡对象被识别的准确性大幅提高的技术效果,下面说明本发明实施例提供的基于人工智能的对象识别设备的示例性应用,本发明实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时的示例性应用。
参见图2,图2是本发明实施例提供的基于人工智能的对象识别***100的一个可选的架构示意图,对象识别***100中还包括:终端400、网络300、服务器200以及数据库500,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,通过终端400的摄像头采集到待识别图像,响应于接收到终端400的对象识别请求,服务器200读取数据库中预存的对象图像,并确定待识别图像与预存的对象图像的匹配关系,服务器200将确定的匹配关系作为对象识别结果返回给终端400的显示界面,以对其进行显示。
参见图3,图3是本发明实施例提供的基于人工智能的对象识别的服务器200的结构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线***240耦合在一起。可理解,总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线***240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***251,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的装置可以采用软件方式实现,图3示出了存储在存储器250中的基于人工智能的对象识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:遮挡检测模块2551、遮挡二值图像块获取模块2552、二值掩码查询模块2553、二值掩码合成模块2554、匹配关系确定模块2555、二值掩码字典构建模块2556、对象识别模型训练模块2557和仿射变换模块2558。这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的装置可以采用硬件方式实现,作为示例,本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的基于人工智能的对象识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,A pplication Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Program mable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
将结合本发明实施例提供的终端的示例性应用和实施,说明本发明实施例提供的基于人工智能的对象识别方法。
下面分两个阶段说明本发明实施例提供的基于人工智能的对象识别方法,第一个部分是模型的训练阶段,第二个部分是利用模型的识别阶段。
下面说明模型的训练阶段,参见图4,图4是本发明实施例提供的基于人工智能的对象识别方法的一个可选的流程示意图,将结合图4示出的步骤101-104进行说明,下述方法的步骤可以在上述任意类型的电子设备(例如终端或服务器)上实现。
在步骤101中,基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合;其中,对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本。
这里的对象可以是人、动物或者是物品,对于人而言,遮挡识别可以基于用于进行人脸识别的对象识别模型进行,对于动物而言,遮挡识别可以基于用于进行动物面部识别的对象识别模型进行,可以识别出某种动物的品种或者不同动物的类别,对于物品而言,遮挡识别可以基于专门用于进行某类物品识别的对象识别模型进行。
在一些实施例中,在构建二值掩码字典之前,还需要先构建训练样本集合,训练样本集合的构建基础是对象图像数据库,在步骤101中基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合,可以通过下述技术方案实现:获取对象图像数据库中的对象图像样本,并对对象图像样本进行均匀分割,以获取对应不同对象图像样本块的位置编号;针对位置编号在对象图像样本中对应的对象图像样本块,进行遮挡处理;将对象图像样本以及经过遮挡处理的对象图像样本,构造为针对位置编号的对象图像样本对;基于不同位置编号的对象图像样本对,形成训练样本集合。
在一些实施例中,将对象图像样本进行均匀分割,例如,经过均匀分割后,形成12个对象图像样本块,对12个对象图像样本块进行对应的位置编号,每一个对象图像样本块对应一个位置编号,针对位置编号在对象图像样本中对应的对象图像样本块,进行遮挡处理,例如,对于位置编号11而言,在对应位置编号11的对象图像样本块上进行遮挡处理,得到一个对象图像样本对,这个对象图像样本对中包括未经遮挡处理的原始的对象图像样本和在对应的对象图像样本块进行遮挡处理之后的对象图像样本,针对于同一位置编号,可以构造多个对象图像样本对,虽然不同的对象图像样本对中的对象有区别,但是均是在同一位置进行了遮挡处理。
在步骤102中,基于基础对象识别模型以及掩码生成模型,构建成对差分孪生网络模型。
在一些实施例中,基于基础对象识别模型以及掩码生成模型,构建成对差分孪生网络模型,接着基于训练样本集合,训练成对差分孪生网络模型,基于经过训练的成对差分孪生网络模型,构建二值掩码字典,其中,二值掩码字典的索引是遮挡二值图像块,二值掩码字典的索引项是二值掩码。这里,成对差分孪生网络模型由两个完全相同的基础对象识别模型组成,基础对象识别模型的结构基础是卷积神经网络,将两个基础对象识别模型所提取出的特征的差值的绝对值作为注意力机制,使得掩码生成模型对绝对值进行处理,其实质是关注了那些被遮挡所影响到的特征元素,掩码生成模型由常见的神经网络单元构成,包括批归一层,卷积层等等。训练成对孪生差分网络的过程实际上是相当于训练掩码生成模型,其中的基础对象识别模型是经过训练的能够进行对象识别的一般模型,在训练成对差分孪生网络的过程中,基础对象识别模型的参数是固定的,仅训练更新掩码生成模型的参数。
在步骤103中,基于训练样本集合,训练成对差分孪生网络模型。
在一些实施例中,步骤103中基于训练样本集合,训练成对差分孪生网络模型,具体通过如下技术方案实现,初始化成对差分孪生网络模型中的掩码生成模型,并初始化包括输入样本、输入样本特征、分类概率、以及掩码生成模型参数的损失函数;在成对差分孪生网络模型每次迭代训练过程中执行以下处理:将训练样本集合包括的对象图像样本对作为输入样本,通过成对差分孪生网络模型对输入样本进行特征提取,得到输入样本特征;通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别,得到分类概率;将输入样本、输入样本特征和分类概率代入损失函数,以确定损失函数取得最小值时对应的成对差分孪生网络模型参数;根据所确定的掩码生成模型参数更新成对差分孪生网络模型。
在一些实施例中,训练样本集合中包括针对不同位置编号的对象图像样本对,通过针对某一位置编号的对象图像样本对,对成对差分孪生网络模型进行训练,训练后所得到的掩码生成模型即是针对于该位置编号的掩码生成模型,以通过掩码生成模型找出各个位置编号的图像块被遮挡时,对象图像的卷积特征中受遮挡影响大从而应该被抑制的特征元素。
在一些实施例中,对掩码生成模型进行初始化,并初始化损失函数中的输入样本,输出结果以及掩码生成模型的参数,这里的输出结果包括输入样本特征和分类概率。这里的输入样本是训练样本集合包括的对象图像样本对,在训练针对一个位置编号的掩码生成模型的过程中,利用针对相应位置编号的样本对进行训练,通过成对差分孪生网络模型对输入样本进行特征提取,得到输入样本特征,这里的输入样本特征是经过掩码生成模型处理后得到的。
在一些实施例中,将所述训练样本集合包括的对象图像样本对作为输入样本,通过所述成对差分孪生网络模型对所述输入样本进行特征提取,得到所述输入样本特征的过程具体可以通过如下技术方案实现,将训练样本集合中的针对同一位置编号的对象图像样本对作为输入样本,通过成对差分孪生网络模型中的卷积层对输入样本进行特征提取,得到分别对应对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征;通过成对差分孪生网络模型中的掩码生成模型对第一特征和第二特征的差值的绝对值进行掩码生成处理,得到针对位置编号的掩码;通过掩码分别对第一特征以及第二特征进行乘运算,得到输入样本特征。
这里的掩码生成模型由常见的神经网络单元构成,包括归一化层,卷积层等等,将卷积层得到的特征映射到[0,1]的范围内,通过掩码生成模型得到一个与卷积特征大小相同的掩码,即,针对位置编号的掩码是与第一特征以及第二特征大小相同的三维张量,掩码中的每个元素和第一特征以及第二特征的对应元素相乘,得到新的卷积特征作为输入样本特征。
在一些实施例中,通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别,得到分类概率,这里的分类概率可以是分类正确的概率,这里通过分类正确的概率以及输入样本特征来对掩码生成模型进行修正更新,即将输入样本、输入样本特征和分类概率代入损失函数,以确定损失函数取得最小值时对应的成对差分孪生网络模型参数;根据所确定的掩码生成模型参数更新成对差分孪生网络模型。
在步骤104中,基于经过训练的成对差分孪生网络模型,构建二值掩码字典;其中,二值掩码字典的索引是遮挡二值图像块,二值掩码字典的索引项是二值掩码。
在一些实施例中,步骤104中基于经过训练的成对差分孪生网络模型,构建二值掩码字典,具体可以通过以下技术方案实现,通过成对差分孪生网络模型对同一位置编号的对象图像样本对进行掩码提取,得到对应位置编号的掩码集合;对掩码集合中的每个掩码进行归一化处理,并基于每个掩码的归一化结果计算平均值,以确定对应位置编号的平均掩码;将对应位置编号的遮挡二值图像块作为二值掩码字典的索引,并对平均掩码进行二值化,以将生成的二值掩码作为二值掩码字典的索引项。
在一些实施例中,通过已经训练好的成对差分孪生网络提取训练样本集合中针对一个位置编号的对象图像样本对的掩码集合,当训练样本集合中有N对对象图像样本对时,掩码集合中包括N个掩码,对N个掩码中的每个掩码进行归一化处理,并基于每个掩码的归一化结果计算平均值,以确定对应位置编号的平均掩码,将对应位置编号的遮挡二值图像块作为二值掩码字典的索引,并对平均掩码进行二值化,以将生成的二值掩码作为二值掩码字典的索引项。
在一些实施例中,在执行对象识别之前,还可以执行下述技术方案,基于由对象图像数据库构成的训练样本集合,训练用于获取预存对象图像的特征以及待识别图像的特征的基础对象识别模型;基于训练样本集合,训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型;其中,对象识别模型包括基础对象识别模型以及二值掩码处理模块。
在一些实施例中,上述技术方案中的基于训练样本集合,训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型,可以通过下述技术方案实现,初始化对象识别模型的全连接层,并初始化包括输入样本、分类识别结果、以及对象识别模型中全连接层参数的损失函数;在对象识别模型每次迭代训练过程中执行以下处理:将训练样本集合包括的经过遮挡处理的对象图像样本以及在二值掩码字典中对应的二值掩码作为输入样本,通过对象识别模型对输入样本进行分类识别,得到对应输入样本的分类识别结果;将输入样本和分类识别结果代入损失函数,以确定损失函数取得最小值时对应的对象识别模型中全连接层参数;根据所确定的全连接层参数更新对象识别模型。
下面说明本发明实施例提供的基于人工智能的对象识别方法的识别阶段。
参见图5A,图5A是本发明实施例提供的基于人工智能的对象识别方法的一个可选的流程示意图,将结合图5A示出的步骤201-205进行说明,下述方法的步骤可以在上述任意类型的电子设备(例如终端或服务器)上实现。
在步骤201中,检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征待识别对象的遮挡区域以及未遮挡区域的二值图像。
这里,待识别对象的潜在的遮挡区域表征待识别对象可以被遮挡,也可以不被遮挡,在获取的二值图像中,用0表示非遮挡像素,1代表遮挡像素。通过全卷积神经网络结构对待识别图像的待识别对象进行遮挡检测,这里的全卷积网络结构经由基于人工合成的遮挡数据以及自行标注的真实遮挡数据的训练得到。
在步骤202中,从二值图像中获取表征遮挡区域的遮挡二值图像块。
参见图5B,基于图5A,步骤202中从二值图像中获取表征遮挡区域的遮挡二值图像块,可以通过下述步骤2021-2023具体实现。
在步骤2021中,将二值图像分割为多个二值图像块。
在步骤2022中,确定分割得到的每个二值图像块中遮挡像素的数目比例。
在步骤2023中,当遮挡像素的数目比例超过数目比例阈值时,将对应的二值图像块确定为表征遮挡区域的遮挡二值图像块。
在一些实施例中,对二值图像进行均匀分割得到多个二值图像块,例如将二值图像分割成25个二值图像块,每一行有5个图像块,每一列也有5个图像块,每个图像块的大小相同,同时,每个二值图像块均带有各自的位置编号,例如,第一行第二个位置的图像块可以被编号为12,第三行第四个位置的图像块可以被编号为34。
在一些实施例中,对每个二值图像进行遮挡判断,以确定所有二值图像块表征遮挡区域的遮挡二值图像块,有些二值图像块中有部分遮挡像素,但是二值图像块中的遮挡像素的占比较少,则不将这些二值图像块判断为遮挡二值图像块,对于二值图像块中遮挡像素的占比超过数目比例阈值的二值图像块,将这些二值图像块判断为遮挡二值图像块,即首先确定分割得到的每个二值图像块中遮挡像素的数目比例,当遮挡像素的数目比例超过数目比例阈值时,将对应的二值图像块确定为表征遮挡区域的遮挡二值图像块。
在步骤203中,基于获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应遮挡二值图像块的二值掩码。
参见图5C,基于图5A,步骤203中查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,可以通过下述步骤2031-2032具体实现。
在步骤2031中,获取对应遮挡二值图像块的位置编号。
在步骤2032中,基于对应遮挡二值图像块的位置编号,在二值掩码字典中查询遮挡二值图像块的位置编号与二值掩码的映射关系。
在一些实施例中,这里的位置编号即为上文所述的位置编号,在二值掩码字典中记录了各个遮挡二值图像块和二值掩码M的映射关系,由于遮挡二值图像块和各自的位置编号是一一对应的,所以通过查询位置编号各个遮挡二值图像块的位置编号和二值掩码的映射关系,可以获得对应遮挡二值图像块的二值掩码。二值掩码可以表征出对应的遮挡二值图像块所影响的卷积特征元素,受到影响较大的卷积特征元素可以被二值掩码中的0值抑制,受到影响较大的卷积特征元素可以通过二值掩码中的1值保留。
在步骤204中,将基于每个遮挡二值图像块查询到的二值掩码进行合成,得到对应二值图像的二值掩码。
在一些实施例中,对针对每个遮挡二值图像块查询到的二值掩码进行合成,这里的合成可以是或逻辑运算,例如,对于对应编号为12、13和14的遮挡二值图像块,所查询到的二值掩码分别为M12、M13和M14,对上述所查询到的二值掩码进行如下所示的或运算:
Figure BDA0002244894180000181
其中,
Figure BDA0002244894180000182
表示逻辑求或运算。
在步骤205中,基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征,确定待识别图像与预存对象图像的匹配关系。
参见图5D,基于图5A,步骤205中基于对应二值图像的二值掩码、预存对象图像的特征以及待识别图像的特征,确定待识别图像与预存对象图像的匹配关系,可以通过下述步骤2051-2053具体实现。
在步骤2051中,确定预存对象图像的特征以及待识别图像的特征。
在步骤2052中,将二值掩码分别与预存对象图像的特征以及待识别图像的特征进行乘运算,得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征。
在步骤2053中,确定预存特征与待识别特征之间的相似度,当相似度超过相似度阈值时,确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。
在一些实施例中,确定预存对象图像的特征以及待识别图像的特征,将二值掩码分别与预存对象图像的特征以及待识别图像的特征进行乘运算,得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征,确定预存特征与待识别特征之间的相似度,当相似度超过相似度阈值时,确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。
在一些实施例中,通过基础对象识别模型对预存对象图像和待识别图像分别进行特征提取,确定预存对象图像的预存特征以及待识别图像的待识别特征,通过对象识别模型中的二值掩码处理模块,将二值掩码分别与预存对象图像的预存特征以及待识别图像的待识别特征进行乘运算,以分别获得预存对象图像的预存特征以及对应待识别图像的待识别特征。
在一些实施例中,计算预存特征与待识别特征之间的余弦相似度,由于在特征提取阶段,将预存的干净的无遮挡的对象图像中提取出的特征也和二值掩码相乘,因此,能够确保相似度的计算是根据待识别图像中的对象的未遮挡部分进行的,以及对应于干净的无遮挡的对象图像中的相应的部分进行的,例如,对于被遮挡了眼睛部分的人脸而言,相似度的计算均是基于除了人眼的其他部分进行的,即便是对于预存的干净的人脸图像而言,所提取出的最终的特征,仍然是除人眼以外的部分,能够确保待识别图像与预存对象图像保留相似的信息量,当相似度超过相似度阈值时,确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。
在一些实施例中,在执行步骤201之前,还可以执行下述技术方案,检测待识别图像中待识别对象的关键点,并确定关键点的坐标位置;根据关键点的坐标位置,对待识别对象进行仿射变换,以将关键点对齐到与预存对象图像一致的标准模板位置,在仿射变换的过程中,将待识别对象的关键点仿射变换到标准模板位置,从而减少由于待识别对象的位置姿势不同导致的识别误差。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
本申请中的对象识别方法可以应用于任意的人脸识别场景中,例如考勤***、监控寻人***、安检***、手机电脑解锁等等。用户只需要在***初始化时在***中注册一张正面无遮挡人脸图像存在***数据库中,作为预存人脸图像,在进行识别时只需获取用户的待识别图像即可。
参见图6,图6是本发明实施例提供的基于人工智能的对象识别***的进行对象识别的流程示意图。
预处理模块进行人脸检测和对齐处理,通过预处理模块对输入的待识别人脸图像601进行预处理,在预处理过程中,首先,检测输入的待识别人脸图像中的人脸,并对左眼、右眼、鼻子、左嘴角和右嘴角的坐标位置进行定位,接着,根据五个关键点的坐标位置,将输入的待识别人脸图像中的人脸通过仿射变换,对齐到统一的模板位置并裁剪成固定大小,由此获得对齐后的待识别人脸图像602。
遮挡检测模块检测遮挡区域,通过遮挡检测模块对待识别的人脸图像进行遮挡检测,检测待识别人脸图像上发生部分遮挡的区域,输出与待识别人脸图像大小相同的二值图像603,其中,0代表非遮挡像素,1代表遮挡像素。
这里所使用到的人脸关键点检测基于多任务卷积神经网络实现,这里所使用到的遮挡检测基于全卷积网络结构实现,训练样本包括人工合成的遮挡数据和自行标注的真实遮挡数据。
掩码生成模块生成二值掩码M,这里的掩码生成模块即为顶层卷积特征掩码生成模块,通过掩码生成模块接收待识别人脸图像的经过遮挡检测的检测结果,从二值掩码字典中合成待识别人脸图像的二值掩码M。
识别模块提取特征并进行人脸鉴别或认证,通过识别模块中的特征提取模块,利用基础卷积神经网络和待识别图像的二值掩码分别提取对齐后的待识别人脸图像和***数据库中预存人脸图像的特征;通过识别模块中的分类模块,根据获取的待识别人脸图像的特征以及预存人脸图像的特征对待识别人脸图像进行识别,在人脸认证的应用场景中,输出结果表征待识别人脸图像与***数据库中的预存人脸图像是否为同一个人,对于人脸鉴别的应用场景中,输出结果表征待识别人脸图像所属的***数据库中人脸图像的类别,即输出待识别人脸类别与预存人脸是否属于同一类别。
下面详细说明构建上述二值掩码字典的过程,该字典中的索引是人脸图像的遮挡块,索引项是二值掩码,该字典是针对一个基础人脸识别模型生成的,例如主分支卷积神经网络(Trunk CNN,Convolutional Neural Networks),这个Trunk CNN也是识别模块所使用的模型。
构建二值掩码字典分两个步骤:掩码生成器的训练以及基于训练好的掩码生成器建立一个二值化的掩码字典,即二值掩码字典。
在掩码生成器的训练过程中,首先,根据人脸对齐的模板,将人脸区域划分为B*B个不重叠的区域,表示为
Figure BDA0002244894180000201
参见图7,图7是本发明实施例提供的基于人工智能的对象识别方法的人脸图像的分割示意图,例如,将人脸图像划分为5*5块,针对每个人脸图像块训练一个掩码生成器(MG,Mask Genera tor),这里的掩码生成器即为前述的掩码生成模型,每个MG的目的是找出,在人脸上某块bj被遮挡时,该人脸图像的顶层卷积特征中受遮挡影响大从而应该减弱其响应值的元素,本发明实施例提供一种成对差分孪生网络(PDSN,Pairwise Differential Siamese Network)结构来学习每个MG。
参见图8,图8是本发明实施例提供的基于人工智能的对象识别方法中的成对差分孪生网络的结构示意图,成对差分孪生网络由两个相同Trunk CNN构成,训练第j个MG时,PDSN网络整体的输入是成对的人脸图像
Figure BDA0002244894180000211
xi表示干净无遮挡的人脸,
Figure BDA0002244894180000212
表示有遮挡的人脸,N表示人脸对的对数。
Figure BDA0002244894180000213
与xi属于同一个类别人脸图像,唯一的区别是
Figure BDA0002244894180000214
人脸上的bj块被遮挡。成对人脸图像通过共享的Trunk CNN分别提取各自的顶层卷积特征f(xi),将二者的顶层卷积特征差值的绝对值
Figure BDA0002244894180000216
作为MG模块的输入,差值输入起到注意力机制的作用,使得MG模块关注那些被遮挡改变了的特征元素。
成对差分孪生网络中的核心模块是MG模块,MG模块由常见的神经网络单元构成,包括批归一化层(BN,Batch Normalization)、卷积层(Convolutio nal layer)等,最后通过逻辑回归激活函数将MG模块的输出值映射到[0,1]范围内,该MG模块输出一个与顶层卷积特征相同大小的掩码
Figure BDA0002244894180000217
其是与顶层卷积特征大小相同的三维张量,掩码中的每个元素与原顶层卷积特征的对应元素相乘,得到新的卷积特征
Figure BDA0002244894180000218
这里的卷积特征f(·)指的是卷积神经网络卷积层的输出,通常是具有C个通道,高为H,宽为W的三维张量,即f(·)∈RC*H*W,这里的卷积特征元素指的是坐标为(c,h,w)的张量元素,这里的卷积特征的同一空间位置的特征元素指的是h维和w维坐标相同的C个通道的元素。
在训练过程中的损失函数由两种损失函数联合构成,包括分类损失函数lcls和对比损失函数ldiff,分类损失函数的目的在于,遮挡人脸的顶层卷积特征与掩码相乘后的新特征能够提高Trunk CNN分类器的识别率,由此使得MG对阻碍识别的特征元素赋予较低的掩码值;对比损失函数的目的在于,使遮挡人脸的新特征
Figure BDA0002244894180000222
与其对应的干净人脸的卷积特征
Figure BDA0002244894180000223
尽可能的接近,由此使得MG对二者差异较大的特征元素赋予较低的掩码值,两个损失函数的共同作用能够促使MG对遮挡人脸卷积特征与干净人脸卷积特征中差异较大且影响识别的元素赋予低的掩码值,这些元素就是本方案所关心的被遮挡破坏了的元素,由此,损失函数为构造为:
Figure BDA0002244894180000224
其中,
Figure BDA0002244894180000225
表示MG的输出,F表示Trunk CNN顶层卷积层后面的全连接层或者平均池化层,
Figure BDA0002244894180000226
表示Trunk CNN分类正确的概率。
在本发明实施例中,将人脸区域划分为B*B个不重叠的区域,因此一共需要训练B*B个MG,这些MG的Trunk CNN部分都相同且参数固定,它们的训练数据来自同一数据库。
在基于训练好的掩码生成器建立一个二值化的掩码字典的过程中,在各个MG的训练阶段完成后,通过MG的输出得到人脸图像上各块被遮挡时,该人脸图像的顶层卷积特征中被遮挡破坏从而应该减弱其响应值的元素,被减弱的元素对应着MG输出中较低的值。二值掩码字典的索引是人脸块bj,索引项是一个二值掩码Mj,掩码Mj与Trunk CNN的顶层卷积特征大小相同,Mj中的0值代表着人脸块bj被遮挡时应该被从识别中去除的特征元素。
参见图9,图9是本发明实施例提供的基于人工智能的对象识别方法的二值掩码字典中的每个索引项Mj的计算流程示意图。
在步骤901中:将大量人脸图像样本对输入上述经过训练的PDSN,得到一系列MG的输出掩码集合,这个掩码集合可以为N代表样本对的数目,j代表针对位置编号为j的MG输出的掩码,这里的人脸图像样本对和上述训练MG过程中所使用的训练样本可以相同。
在步骤902中:对步骤901中生成的掩码集合中的每个掩码进行归一化处理,例如对于
Figure BDA0002244894180000231
其对应的归一化公式为:
Figure BDA0002244894180000232
其中,max()为样本数据的最大值,min()为样本数据的最小值。
在步骤903中:计算归一化后的这些掩码的均值,得到该第j个MG对应的平均掩码:
在步骤904中:对平均掩码进行二值化得到二值的字典索引项,这里的二值的字典索引项即为二值掩码Mj
在平均掩码中,掩码值越小代表着对应的卷积特征元素被抑制得越多,据此本发明实施例中将平均掩码中最小的τ*K个掩码值对应的卷积特征元素看作是被遮挡破坏的部分(τ是[0,1]范围内的实数,优选为0.25;K是掩码的元素总数,也是顶层卷积特征的元素总数,K=C*H*W),则由平均掩码
Figure BDA0002244894180000237
得到二值掩码字典的索引项Mj的方式为:
其中k表示第k个掩码值,表示平均掩码中最小的τ*K个掩码值。
按照图9所述的流程,对每个MG都生成其对应的二值掩码,由此构建了遮挡人脸图像块与二值掩码对应的二值掩码字典:
Figure BDA0002244894180000236
这里的字典即为遮挡块-掩码字典。
下面描述基于二值掩码字典,合成待识别人脸图像的二值掩码M的过程。参见图10,图10是本发明实施例提供的基于人工智能的对象识别方法中合成待识别人脸图像的二值掩码M的流程示意图。
在步骤1001中:根据输入的待识别人脸图像的遮挡检测结果,确定遮挡人脸图像块,遮挡检测结果是与待识别人脸图像大小相同的二值图像,0代表非遮挡像素,1代表遮挡像素,当遮挡检测结果中某个人脸图像块范围内值为1的像素数目大于该人脸图像块范围内总像素数目的一半时,该人脸图像块即被确定是发生了遮挡的遮挡人脸图像块。
在步骤1002中:从二值掩码字典中查询遮挡人脸图像块的索引项,合成该待识别人脸的二值掩码M,这里的索引项即为Mj,具体而言,以图6示的人脸图像为例,当人脸图像被分为5*5块时,在步骤1001中所确定的发生遮挡的人脸块为b12,b13,b14,根据训练阶段建立的二值掩码字典,得到该待识别人脸图像对应的二值掩码为:
Figure BDA0002244894180000241
其中
Figure BDA0002244894180000242
表示逻辑求或运算。
参见图11,图11是本发明实施例提供的基于人工智能的对象识别方法中特征提取的示意图。
特征提取阶段所使用的Trunk CNN与构建字典阶段的参数完全相同,结构上多了一个输入二值掩码M的分支,即在基础对象识别模型上多了一个输入二值掩码M的分支,为了使Trunk CNN顶层卷积层之后的全连接层适应二值化的掩码,通过任意遮挡的人脸样本及其二值掩码微调全连接层的参数,全连接层以前的所有参数保持不变,此微调阶段采用很小的学习率1e-4,优选完成6次训练,损失函数采用与训练Trunk CNN时相同的分类损失函数。
在实际应用中,***数据库中可直接存储人脸图像的顶层卷积特征,识别待识别人脸图像时,将掩码M分别与待识别人脸图像的顶层卷积特征和数据库中的顶层卷积特征相乘,然后通过Trunk CNN微调过的全连接层或平均池化层得到分类时所用的最终的特征向量。
在提取特征向量后,计算待识别人脸图像的特征向量fp与数据库中各人脸图像的特征向量的余弦相似度:
Figure BDA0002244894180000251
其中,s(p,gi)即为特征向量fp与数据库中各人脸图像的特征向量
Figure BDA0002244894180000252
余弦相似度。
在特征提取阶段,将数据库中干净无遮挡人脸的特征也与掩码M相乘,能够确保相似度的计算是根据待识别人脸图像中未被遮挡的部分进行的,即待识别人脸图像与数据库中人脸图像特征保留相似的信息量。
对于人脸鉴别场景中,需要识别出待识别人脸图像属于数据库中哪个人脸类别,可以采用最近邻分类器,即与测试人脸相似度最高的数据库中人脸图像的类别即为该待识别人脸所属的类别,也可以采用其他常用的分类器。
对于人脸认证场景,需要识别出待识别人脸图像与数据库中人脸图像是否属于同一个人,可以采用阈值判断的方式,即二者的相似度高于某阈值时即认为是同一个人,反之认为不是同一个人,也可以根据特征向量专门训练一个用于人脸认证的分类器。
参见图12,图12是是本发明实施例提供的基于人工智能的对象识别方法的模型构建示意图。
在本发明实施例提供的***架构中,除了需要对特征提取模块中的全连接层参数进行微调,以及建立二值掩码字典外,还需要训练一个基础的人脸识别模型,训练样本的来源数据库不被限制,可以用常见的人脸公开数据库,也可以是用户自己的私有数据库,只要保证训练数据的预处理过程与前述预处理过程相同。本发明实施例提供的对象识别方法的模型训练过程如下,在步骤1201中,用一般的人脸数据库训练一个基础对象识别模型,在步骤1202中,固定基础对象识别模型参数,用(干净,遮挡)人脸样本对训练B*B个成对差分孪生网络模型,建立二值化的遮挡块-掩码字典,在步骤1203中,固定Trunk CNN中全连接层之前的参数,通过任意遮挡的人脸及其对应掩码微调Trunk CNN的全连接层参数。
下面继续说明本发明实施例提供的基于人工智能的对象识别装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的基于人工智能的对象识别装置255中的软件模块可以包括:
遮挡检测模块2551,用于检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像;
遮挡二值图像块获取模块2552,用于从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块;
二值掩码查询模块2553,用于基于所述获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应所述遮挡二值图像块的二值掩码;
二值掩码合成模块2554,用于将基于每个所述遮挡二值图像块查询到的二值掩码进行合成,得到对应所述二值图像的二值掩码;
匹配关系确定模块2555,用于基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系。
在一些实施例中,遮挡二值图像块获取模块2552,还用于:
将二值图像分割为多个二值图像块;
确定分割得到的每个二值图像块的遮挡像素的数目比例;
当遮挡像素的数目比例超过数目比例阈值时,将二值图像块确定为表征遮挡区域的遮挡二值图像块。
在一些实施例中,二值掩码查询模块2553,还用于:
获取对应遮挡二值图像块的位置编号;
基于对应遮挡二值图像块的位置编号,在二值掩码字典中查询遮挡二值图像块的位置编号与二值掩码的映射关系。
在一些实施例中,匹配关系确定模块2555,还用于:
确定预存对象图像的特征以及待识别图像的特征;
将二值掩码与预存对象图像的特征以及待识别图像的特征分别相乘,得到对应预存对象图像的预存特征以及对应待识别图像的待识别特征;
确定预存特征与待识别特征之间的相似度,当相似度超过相似度阈值时,确定待识别图像包括的对象与预存对象图像包括的对象属于相同类别。
在一些实施例中,装置还包括:
二值掩码字典构建模块2556,用于:
基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合;
其中,对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本;
基于基础对象识别模型以及掩码生成模型,构建成对差分孪生网络模型;
基于训练样本集合,训练成对差分孪生网络模型;
基于经过训练的成对差分孪生网络模型,构建二值掩码字典;
其中,二值掩码字典的索引是遮挡二值图像块,二值掩码字典的索引项是二值掩码。
在一些实施例中,二值掩码字典构建模块2556,还用于:
获取对象图像数据库中的对象图像样本,并对对象图像样本进行均匀分割,以获取对应不同对象图像样本块的位置编号;
针对位置编号,对对象图像样本进行对应对象图像样本块的遮挡处理;
将对象图像样本以及经过遮挡处理的对象图像样本,构造为针对位置编号的对象图像样本对;
基于针对不同位置编号的对象图像样本对,形成训练样本集合。
在一些实施例中,二值掩码字典构建模块2556,还用于:
初始化成对差分孪生网络模型中的掩码生成模型,并初始化包括输入样本、输入样本特征、分类概率、以及掩码生成模型参数的损失函数;
在成对差分孪生网络模型每次迭代训练过程中执行以下处理:
将训练样本集合包括的对象图像样本对作为输入样本,通过成对差分孪生网络模型对输入样本进行特征提取,得到输入样本特征;
通过对象识别模型对经过遮挡处理的对象图像样本进行分类识别,得到分类概率;
将输入样本、输入样本特征和分类概率代入损失函数,以确定损失函数取得最小值时对应的成对差分孪生网络模型参数;
根据所确定的掩码生成模型参数更新成对差分孪生网络模型。
在一些实施例中,二值掩码字典构建模块2556,还用于:
将训练样本集合中的针对同一位置编号的对象图像样本对作为输入样本,通过成对差分孪生网络模型中的卷积层对输入样本进行特征提取,得到分别对应对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征;
通过成对差分孪生网络模型中的掩码生成模型对第一特征和第二特征的差值的绝对值进行掩码生成处理,得到针对位置编号的掩码;
通过掩码分别对第一特征以及第二特征进行相乘运算,得到输入样本特征。
在一些实施例中,二值掩码字典构建模块2556,还用于:
通过成对差分孪生网络模型对针对同一位置编号的对象图像样本对进行掩码提取,得到对应位置编号的掩码集合;
对掩码集合中的每个掩码进行归一化处理,并确定对应位置编号的平均掩码;
将对应位置编号的遮挡二值图像块作为二值掩码字典的索引,并对平均掩码进行二值化,以生成二值掩码作为二值掩码字典的索引项。
在一些实施例中,装置还包括:
对象识别模型训练模块2557,用于:
基于由对象图像数据库构成的训练样本集合,训练用于获取预存对象图像的特征以及待识别图像的特征的基础对象识别模型;
基于训练样本集合,训练用于确定待识别图像与预存对象图像的匹配关系的对象识别模型;
其中,对象识别模型包括基础对象识别模型以及二值掩码处理模块。
在一些实施例中,对象识别模型训练模块2557,还用于:
初始化对象识别模型的全连接层,并初始化包括输入样本、分类识别结果、以及对象识别模型中全连接层参数的损失函数;
在对象识别模型每次迭代训练过程中执行以下处理:
将训练样本集合包括的经过遮挡处理的对象图像样本以及在二值掩码字典中对应的二值掩码确定为输入样本,通过对象识别模型对输入样本进行分类识别,得到对应输入样本的分类识别结果;
将输入样本和分类识别结果代入损失函数,以确定损失函数取得最小值时对应的对象识别模型中全连接层参数;
根据所确定的全连接层参数更新对象识别模型。
在一些实施例中,装置还包括:
仿射变换模块2558,用于:
检测待识别图像中待识别对象的关键点,并确定关键点的坐标位置;
根据关键点的坐标位置,对待识别对象进行仿射变换,以将关键点对齐到与预存对象图像一致的标准模板位置。
本发明实施例提供一种基于人工智能的对象识别设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行存储器中存储的可执行指令时,实现基于人工智能的对象识别方法,例如,如图4和图5A-5D示出的基于人工智能的对象识别方法。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的方法,例如,如图4和图5A-5D示出的基于人工智能的对象识别方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本发明实施例,在待识别对象未被遮挡时,能够保持其识别非遮挡对象的性能,同时,在待识别对象被遮挡的情况下,遮挡区域对待识别对象的特征元素的产生的影响被抑制,使得遮挡对象被识别的准确性大幅提高,其在真实遮挡数据库和合成遮挡数据库中的测试性能均高于相关技术中的方案。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (15)

1.一种基于人工智能的对象识别方法,其特征在于,所述方法包括:
检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像;
从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块;
基于所述获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应所述遮挡二值图像块的二值掩码;
将基于每个所述遮挡二值图像块查询到的二值掩码进行合成,得到对应所述二值图像的二值掩码;
基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系。
2.根据权利要求1所述的方法,其特征在于,所述从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块,包括:
将所述二值图像分割为多个二值图像块;
确定分割得到的每个二值图像块中遮挡像素的数目比例;
当所述遮挡像素的数目比例超过数目比例阈值时,将对应的二值图像块确定为表征所述遮挡区域的遮挡二值图像块。
3.根据权利要求1所述的方法,其特征在于,所述查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,包括:
获取对应所述遮挡二值图像块的位置编号;
基于对应所述遮挡二值图像块的位置编号,在所述二值掩码字典中查询所述遮挡二值图像块的位置编号与二值掩码的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系,包括:
确定所述预存对象图像的特征以及所述待识别图像的特征;
将所述二值掩码分别与所述预存对象图像的特征以及所述待识别图像的特征进行乘运算,得到对应所述预存对象图像的预存特征以及对应所述待识别图像的待识别特征;
确定所述预存特征与所述待识别特征之间的相似度,当所述相似度超过相似度阈值时,确定所述待识别图像包括的对象与所述预存对象图像包括的对象属于相同类别。
5.根据权利要求1所述的方法,其特征在于,所述查询二值掩码字典之前,所述方法还包括:
基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合;
其中,所述对象图像样本对包括对象图像样本和经过遮挡处理的对象图像样本;
基于基础对象识别模型以及掩码生成模型,构建成对差分孪生网络模型;
基于所述训练样本集合,训练所述成对差分孪生网络模型;
基于经过训练的成对差分孪生网络模型,构建所述二值掩码字典;
其中,所述二值掩码字典的索引是所述遮挡二值图像块,所述二值掩码字典的索引项是所述二值掩码。
6.根据权利要求5所述的方法,其特征在于,所述基于对象图像数据库,构建由针对不同位置编号的对象图像样本对组成的训练样本集合,包括:
获取所述对象图像数据库中的对象图像样本,并对所述对象图像样本进行均匀分割,以获取对应不同对象图像样本块的位置编号;
针对所述位置编号在所述对象图像样本中对应的对象图像样本块,进行遮挡处理;
将所述对象图像样本以及经过遮挡处理的对象图像样本,构造为针对所述位置编号的对象图像样本对;
基于不同位置编号的对象图像样本对,形成所述训练样本集合。
7.根据权利要求5所述的方法,其特征在于,所述基于所述训练样本集合,训练所述成对差分孪生网络模型,包括:
初始化所述成对差分孪生网络模型中的掩码生成模型,并初始化包括输入样本、输入样本特征、分类概率、以及所述掩码生成模型参数的损失函数;
在所述成对差分孪生网络模型每次迭代训练过程中执行以下处理:
将所述训练样本集合包括的对象图像样本对作为输入样本,通过所述成对差分孪生网络模型对所述输入样本进行特征提取,得到所述输入样本特征;
通过所述对象识别模型对所述经过遮挡处理的对象图像样本进行分类识别,得到所述分类概率;
将所述输入样本、所述输入样本特征和所述分类概率代入所述损失函数,以确定所述损失函数取得最小值时对应的成对差分孪生网络模型参数;
根据所确定的掩码生成模型参数更新所述成对差分孪生网络模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述训练样本集合包括的对象图像样本对作为输入样本,通过所述成对差分孪生网络模型对所述输入样本进行特征提取,得到所述输入样本特征,包括:
将所述训练样本集合中的针对同一位置编号的对象图像样本对作为所述输入样本,通过所述成对差分孪生网络模型中的卷积层对所述输入样本进行特征提取,得到分别对应所述对象图像样本和经过遮挡处理的对象图像样本的第一特征和第二特征;
通过所述成对差分孪生网络模型中的掩码生成模型对所述第一特征和所述第二特征的差值的绝对值进行掩码生成处理,得到针对所述位置编号的掩码;
通过所述掩码分别对所述第一特征以及所述第二特征进行乘运算,得到所述输入样本特征。
9.根据权利要求5所述的方法,其特征在于,所述基于经过训练的成对差分孪生网络模型,构建所述二值掩码字典,包括:
通过所述成对差分孪生网络模型对同一位置编号的对象图像样本对进行掩码提取,得到对应所述位置编号的掩码集合;
对所述掩码集合中的每个掩码进行归一化处理,并基于所述每个掩码的归一化结果计算平均值,以确定对应所述位置编号的平均掩码;
将对应所述位置编号的遮挡二值图像块作为所述二值掩码字典的索引,并对所述平均掩码进行二值化,以将生成的所述二值掩码作为所述二值掩码字典的索引项。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于由对象图像数据库构成的训练样本集合,训练用于获取预存对象图像的特征以及所述待识别图像的特征的基础对象识别模型;
基于所述训练样本集合,训练用于确定所述待识别图像与所述预存对象图像的匹配关系的对象识别模型;
其中,所述对象识别模型包括所述基础对象识别模型以及二值掩码处理模块。
11.根据权利要求10所述的方法,其特征在于,所述基于所述训练样本集合,训练用于确定所述待识别图像与所述预存对象图像的匹配关系的对象识别模型,包括:
初始化所述对象识别模型的全连接层,并初始化包括输入样本、分类识别结果、以及所述对象识别模型中全连接层参数的损失函数;
在所述对象识别模型每次迭代训练过程中执行以下处理:
将所述训练样本集合包括的经过遮挡处理的对象图像样本以及在所述二值掩码字典中对应的二值掩码作为所述输入样本,通过所述对象识别模型对所述输入样本进行分类识别,得到对应所述输入样本的分类识别结果;
将所述输入样本和所述分类识别结果代入所述损失函数,以确定所述损失函数取得最小值时对应的对象识别模型中全连接层参数;
根据所确定的全连接层参数更新所述对象识别模型。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述待识别图像中待识别对象的关键点,并确定所述关键点的坐标位置;
根据所述关键点的坐标位置,对所述待识别对象进行仿射变换,以将所述关键点对齐到与所述预存对象图像一致的标准模板位置。
13.一种基于人工智能的对象识别装置,其特征在于,包括:
遮挡检测模块,用于检测待识别图像的待识别对象的潜在的遮挡区域,以获取表征所述待识别对象的遮挡区域以及未遮挡区域的二值图像;
遮挡二值图像块获取模块,用于从所述二值图像中获取表征所述遮挡区域的遮挡二值图像块;
二值掩码查询模块,用于基于所述获取的遮挡二值图像块,查询二值掩码字典中所包括的遮挡二值图像块与二值掩码的映射关系,得到对应所述遮挡二值图像块的二值掩码;
二值掩码合成模块,用于将基于每个所述遮挡二值图像块查询到的二值掩码进行合成,得到对应所述二值图像的二值掩码;
匹配关系确定模块,用于基于对应所述二值图像的二值掩码、预存对象图像的特征以及所述待识别图像的特征,确定所述待识别图像与所述预存对象图像的匹配关系。
14.一种基于人工智能的对象识别设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的对象识别方法。
15.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至12任一项所述的基于人工智能的对象识别方法。
CN201911013447.1A 2019-10-23 2019-10-23 基于人工智能的对象识别方法、装置、设备及存储介质 Pending CN110728330A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911013447.1A CN110728330A (zh) 2019-10-23 2019-10-23 基于人工智能的对象识别方法、装置、设备及存储介质
PCT/CN2020/117764 WO2021077984A1 (zh) 2019-10-23 2020-09-25 对象识别方法、装置、电子设备及可读存储介质
US17/520,612 US20220058426A1 (en) 2019-10-23 2021-11-05 Object recognition method and apparatus, electronic device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911013447.1A CN110728330A (zh) 2019-10-23 2019-10-23 基于人工智能的对象识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110728330A true CN110728330A (zh) 2020-01-24

Family

ID=69222904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911013447.1A Pending CN110728330A (zh) 2019-10-23 2019-10-23 基于人工智能的对象识别方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20220058426A1 (zh)
CN (1) CN110728330A (zh)
WO (1) WO2021077984A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695495A (zh) * 2020-06-10 2020-09-22 杭州萤石软件有限公司 人脸识别方法、电子设备及存储介质
CN111724522A (zh) * 2020-05-25 2020-09-29 浙江大华技术股份有限公司 一种门禁控制***、方法、装置、控制设备及存储介质
CN111753882A (zh) * 2020-06-01 2020-10-09 Oppo广东移动通信有限公司 图像识别网络的训练方法和装置、电子设备
CN111860343A (zh) * 2020-07-22 2020-10-30 杭州海康威视数字技术股份有限公司 确定人脸对比结果的方法及装置
CN111860431A (zh) * 2020-07-30 2020-10-30 浙江大华技术股份有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN111985340A (zh) * 2020-07-22 2020-11-24 深圳市威富视界有限公司 基于神经网络模型的人脸识别方法、装置和计算机设备
CN112116525A (zh) * 2020-09-24 2020-12-22 百度在线网络技术(北京)有限公司 换脸识别方法、装置、设备和计算机可读存储介质
CN112115912A (zh) * 2020-09-28 2020-12-22 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及存储介质
CN112507831A (zh) * 2020-05-22 2021-03-16 支付宝(杭州)信息技术有限公司 活体检测方法、装置、设备和存储介质
WO2021077984A1 (zh) * 2019-10-23 2021-04-29 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及可读存储介质
CN112967198A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
CN113033334A (zh) * 2021-03-05 2021-06-25 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN113298049A (zh) * 2021-07-12 2021-08-24 浙江大华技术股份有限公司 图像特征降维方法、装置、电子设备和存储介质
CN113327284A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和存储介质
CN113468931A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN114005095A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 车辆属性识别方法、装置、电子设备和介质
CN114092743A (zh) * 2021-11-24 2022-02-25 开普云信息科技股份有限公司 敏感图片的合规性检测方法、装置、存储介质及设备
CN114373210A (zh) * 2021-12-31 2022-04-19 北京工业大学 一种存在口罩遮挡场景下的人脸识别方法
CN114399814A (zh) * 2021-12-23 2022-04-26 北京航空航天大学 一种基于深度学习的遮挡物移除和三维重建方法
CN115601318A (zh) * 2022-10-10 2023-01-13 广东昱升个人护理用品股份有限公司(Cn) 快吸收低反渗纸尿裤智能生产方法及其***
CN115620150A (zh) * 2022-12-05 2023-01-17 海豚乐智科技(成都)有限责任公司 基于孪生Transformer的多模态图像地面建筑识别方法及装置
CN116563926A (zh) * 2023-05-17 2023-08-08 智慧眼科技股份有限公司 一种人脸识别方法、***、设备及计算机可读存储介质
WO2023151333A1 (zh) * 2022-02-08 2023-08-17 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质
EP4207053A4 (en) * 2020-10-16 2024-02-28 Shanghai Bilibili Technology Co., Ltd. TRAINING METHOD FOR OCCLUSION DETECTION MODEL AND METHOD FOR BEAUTYING FACIAL IMAGE
CN118097189A (zh) * 2024-04-07 2024-05-28 腾讯科技(深圳)有限公司 图像匹配方法、模型训练方法、装置、设备及存储介质
CN118097189B (zh) * 2024-04-07 2024-07-23 腾讯科技(深圳)有限公司 图像匹配方法、模型训练方法、装置、设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001872B (zh) * 2020-08-26 2021-09-14 北京字节跳动网络技术有限公司 信息显示方法、设备及存储介质
US11605218B2 (en) * 2021-02-25 2023-03-14 Tata Consultancy Services Limited Systems and methods for constructing a modular Siamese network for face verification
CN113505700A (zh) * 2021-07-12 2021-10-15 北京字跳网络技术有限公司 一种图像处理方法、装置、设备及存储介质
WO2023241817A1 (en) * 2022-06-15 2023-12-21 Veridas Digital Authentication Solutions, S.L. Authenticating a person
CN116109991B (zh) * 2022-12-07 2024-01-09 北京百度网讯科技有限公司 模型的约束参数确定方法、装置及电子设备
CN116188995B (zh) * 2023-04-13 2023-08-15 国家基础地理信息中心 一种遥感图像特征提取模型训练方法、检索方法及装置
CN116343201B (zh) * 2023-05-29 2023-09-19 安徽高哲信息技术有限公司 谷粒类别识别方法、装置及计算机设备
CN116912760B (zh) * 2023-06-25 2024-03-22 广东百德朗科技有限公司 一种物联网数据处理方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203999A (zh) * 2017-04-28 2017-09-26 北京航空航天大学 一种基于全卷积神经网络的皮肤镜图像自动分割方法
CN107292287A (zh) * 2017-07-14 2017-10-24 深圳云天励飞技术有限公司 人脸识别方法、装置、电子设备及存储介质
CN108805040A (zh) * 2018-05-24 2018-11-13 复旦大学 一种基于分块的有遮挡人脸识别算法
CN109271878A (zh) * 2018-08-24 2019-01-25 北京地平线机器人技术研发有限公司 图像识别方法、图像识别装置和电子设备
CN109670429A (zh) * 2018-12-10 2019-04-23 广东技术师范学院 一种基于实例分割的监控视频多目标人脸检测方法及***
CN109784349A (zh) * 2018-12-25 2019-05-21 东软集团股份有限公司 图像目标检测模型建立方法、装置、存储介质及程序产品
CN109829448A (zh) * 2019-03-07 2019-05-31 苏州市科远软件技术开发有限公司 人脸识别方法、装置及存储介质
CN109934177A (zh) * 2019-03-15 2019-06-25 艾特城信息科技有限公司 行人再识别方法、***及计算机可读存储介质
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及***
CN110210503A (zh) * 2019-06-14 2019-09-06 厦门历思科技服务有限公司 一种***识别方法和装置以及设备
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165406B1 (en) * 2012-09-21 2015-10-20 A9.Com, Inc. Providing overlays based on text in a live camera view
CN104751108B (zh) * 2013-12-31 2019-05-17 汉王科技股份有限公司 人脸图像识别装置和人脸图像识别方法
US9240077B1 (en) * 2014-03-19 2016-01-19 A9.Com, Inc. Real-time visual effects for a live camera view
CN104091163A (zh) * 2014-07-19 2014-10-08 福州大学 一种消除遮挡影响的lbp人脸识别方法
US10275820B2 (en) * 2017-01-31 2019-04-30 Walmart Apollo, Llc Systems and methods for utilizing a convolutional neural network architecture for visual product recommendations
CN107688823B (zh) * 2017-07-20 2018-12-04 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
CN108229292A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 目标识别方法、装置、存储介质和电子设备
CN107679502B (zh) * 2017-10-12 2019-10-08 南京行者易智能交通科技有限公司 一种基于深度学习图像语义分割的人数估计方法
CN107909005A (zh) * 2017-10-26 2018-04-13 西安电子科技大学 基于深度学习的监控场景下人物姿态识别方法
US20210183097A1 (en) * 2017-11-13 2021-06-17 Siemens Aktiengesellschaft Spare Part Identification Using a Locally Learned 3D Landmark Database
US11068741B2 (en) * 2017-12-28 2021-07-20 Qualcomm Incorporated Multi-resolution feature description for object recognition
EP3743885A4 (en) * 2018-01-23 2021-10-06 Mobileodt Ltd. AUTOMATED MONITORING OF MEDICAL IMAGING PROCEDURES
US11315164B2 (en) * 2018-05-18 2022-04-26 Target Brands, Inc. Complementary product recommendation systems
US20190362235A1 (en) * 2018-05-23 2019-11-28 Xiaofan Xu Hybrid neural network pruning
EP3847574A4 (en) * 2018-09-07 2022-04-20 Intel Corporation DETECTION OF OBJECTS IN VIDEO FRAMES USING SIMILARITY DETECTORS
US10467142B1 (en) * 2019-05-07 2019-11-05 12 Sigma Technologies Enhancement of real-time response to request for detached data analytics
CN110728330A (zh) * 2019-10-23 2020-01-24 腾讯科技(深圳)有限公司 基于人工智能的对象识别方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203999A (zh) * 2017-04-28 2017-09-26 北京航空航天大学 一种基于全卷积神经网络的皮肤镜图像自动分割方法
CN107292287A (zh) * 2017-07-14 2017-10-24 深圳云天励飞技术有限公司 人脸识别方法、装置、电子设备及存储介质
US20190311202A1 (en) * 2018-04-10 2019-10-10 Adobe Inc. Video object segmentation by reference-guided mask propagation
CN108805040A (zh) * 2018-05-24 2018-11-13 复旦大学 一种基于分块的有遮挡人脸识别算法
CN109271878A (zh) * 2018-08-24 2019-01-25 北京地平线机器人技术研发有限公司 图像识别方法、图像识别装置和电子设备
CN109670429A (zh) * 2018-12-10 2019-04-23 广东技术师范学院 一种基于实例分割的监控视频多目标人脸检测方法及***
CN109784349A (zh) * 2018-12-25 2019-05-21 东软集团股份有限公司 图像目标检测模型建立方法、装置、存储介质及程序产品
CN109829448A (zh) * 2019-03-07 2019-05-31 苏州市科远软件技术开发有限公司 人脸识别方法、装置及存储介质
CN109934177A (zh) * 2019-03-15 2019-06-25 艾特城信息科技有限公司 行人再识别方法、***及计算机可读存储介质
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及***
CN110210503A (zh) * 2019-06-14 2019-09-06 厦门历思科技服务有限公司 一种***识别方法和装置以及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LINGXUE SONG,DIHONG GONG,ZHIFENG LI,CHANGSONG LIU,WEI LIU: "Occlusion Robust Face Recognition Based on Mask Learning with Pairwise Differential Siamese Network", 《ARXIV:1908.06290V1 [CS.CV]》 *
QING WANG,LI ZHANG,LUCA BERTINETTO: "Fast online object tracking and segmentation :a unifying approach", 《ARXIV:1812.05050V2》 *
侯进辉,曾焕强: "基于随机遮挡辅助深度表征学习的车辆再辨识", 《控制理论与应用》 *
李明杰,冯有前,尹忠海: "一种用于单目标跟踪的锚框掩码孪生RPN模型", 《计算机工程》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021077984A1 (zh) * 2019-10-23 2021-04-29 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及可读存储介质
CN113468931A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN113468931B (zh) * 2020-03-31 2022-04-29 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及存储介质
CN112507831B (zh) * 2020-05-22 2022-09-23 支付宝(杭州)信息技术有限公司 活体检测方法、装置、设备和存储介质
CN112507831A (zh) * 2020-05-22 2021-03-16 支付宝(杭州)信息技术有限公司 活体检测方法、装置、设备和存储介质
CN111724522B (zh) * 2020-05-25 2022-04-08 浙江大华技术股份有限公司 一种门禁控制***、方法、装置、控制设备及存储介质
CN111724522A (zh) * 2020-05-25 2020-09-29 浙江大华技术股份有限公司 一种门禁控制***、方法、装置、控制设备及存储介质
CN111753882B (zh) * 2020-06-01 2024-06-28 Oppo广东移动通信有限公司 图像识别网络的训练方法和装置、电子设备
CN111753882A (zh) * 2020-06-01 2020-10-09 Oppo广东移动通信有限公司 图像识别网络的训练方法和装置、电子设备
CN111695495B (zh) * 2020-06-10 2023-11-14 杭州萤石软件有限公司 人脸识别方法、电子设备及存储介质
CN111695495A (zh) * 2020-06-10 2020-09-22 杭州萤石软件有限公司 人脸识别方法、电子设备及存储介质
CN111985340A (zh) * 2020-07-22 2020-11-24 深圳市威富视界有限公司 基于神经网络模型的人脸识别方法、装置和计算机设备
CN111860343A (zh) * 2020-07-22 2020-10-30 杭州海康威视数字技术股份有限公司 确定人脸对比结果的方法及装置
CN111860431A (zh) * 2020-07-30 2020-10-30 浙江大华技术股份有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN111860431B (zh) * 2020-07-30 2023-12-12 浙江大华技术股份有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN112116525A (zh) * 2020-09-24 2020-12-22 百度在线网络技术(北京)有限公司 换脸识别方法、装置、设备和计算机可读存储介质
CN112115912A (zh) * 2020-09-28 2020-12-22 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及存储介质
CN112115912B (zh) * 2020-09-28 2023-11-28 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及存储介质
EP4207053A4 (en) * 2020-10-16 2024-02-28 Shanghai Bilibili Technology Co., Ltd. TRAINING METHOD FOR OCCLUSION DETECTION MODEL AND METHOD FOR BEAUTYING FACIAL IMAGE
CN113033334A (zh) * 2021-03-05 2021-06-25 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN112967198A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
CN113327284A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和存储介质
CN113327284B (zh) * 2021-05-27 2022-08-26 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和存储介质
CN113298049A (zh) * 2021-07-12 2021-08-24 浙江大华技术股份有限公司 图像特征降维方法、装置、电子设备和存储介质
CN114005095A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 车辆属性识别方法、装置、电子设备和介质
CN114005095B (zh) * 2021-10-29 2023-06-30 北京百度网讯科技有限公司 车辆属性识别方法、装置、电子设备和介质
CN114092743A (zh) * 2021-11-24 2022-02-25 开普云信息科技股份有限公司 敏感图片的合规性检测方法、装置、存储介质及设备
CN114399814A (zh) * 2021-12-23 2022-04-26 北京航空航天大学 一种基于深度学习的遮挡物移除和三维重建方法
CN114373210A (zh) * 2021-12-31 2022-04-19 北京工业大学 一种存在口罩遮挡场景下的人脸识别方法
WO2023151333A1 (zh) * 2022-02-08 2023-08-17 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质
CN115601318A (zh) * 2022-10-10 2023-01-13 广东昱升个人护理用品股份有限公司(Cn) 快吸收低反渗纸尿裤智能生产方法及其***
CN115620150B (zh) * 2022-12-05 2023-08-04 海豚乐智科技(成都)有限责任公司 基于孪生Transformer的多模态图像地面建筑识别方法及装置
CN115620150A (zh) * 2022-12-05 2023-01-17 海豚乐智科技(成都)有限责任公司 基于孪生Transformer的多模态图像地面建筑识别方法及装置
CN116563926A (zh) * 2023-05-17 2023-08-08 智慧眼科技股份有限公司 一种人脸识别方法、***、设备及计算机可读存储介质
CN116563926B (zh) * 2023-05-17 2024-03-01 智慧眼科技股份有限公司 一种人脸识别方法、***、设备及计算机可读存储介质
CN118097189A (zh) * 2024-04-07 2024-05-28 腾讯科技(深圳)有限公司 图像匹配方法、模型训练方法、装置、设备及存储介质
CN118097189B (zh) * 2024-04-07 2024-07-23 腾讯科技(深圳)有限公司 图像匹配方法、模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20220058426A1 (en) 2022-02-24
WO2021077984A1 (zh) 2021-04-29

Similar Documents

Publication Publication Date Title
CN110728330A (zh) 基于人工智能的对象识别方法、装置、设备及存储介质
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN110363183B (zh) 基于生成式对抗网络的服务机器人视觉图片隐私保护方法
CN111241989B (zh) 图像识别方法及装置、电子设备
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112016464A (zh) 检测人脸遮挡的方法、装置、电子设备及存储介质
CN112446302B (zh) 一种人体姿态检测方法、***、电子设备和存储介质
CN106022317A (zh) 人脸识别方法及装置
CN111274916A (zh) 人脸识别方法和人脸识别装置
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN105917353A (zh) 用于生物认证的特征提取及匹配以及模板更新
CN111325319B (zh) 一种神经网络模型的检测方法、装置、设备及存储介质
US20180349716A1 (en) Apparatus and method for recognizing traffic signs
CN110163111A (zh) 基于人脸识别的叫号方法、装置、电子设备及存储介质
CN111401145B (zh) 一种基于深度学习与ds证据理论的可见光虹膜识别方法
CN110516734B (zh) 一种图像匹配方法、装置、设备及存储介质
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN109684853A (zh) 用于确定和提供图像内的匿名内容的装置和方法
CN111353325A (zh) 关键点检测模型训练方法及装置
CN113627380B (zh) 一种用于智能安防及预警的跨视域行人重识别方法及***
CN112364807A (zh) 图像识别方法、装置、终端设备及计算机可读存储介质
CN116543437A (zh) 一种基于遮挡-特征映射关系的遮挡人脸识别方法
CN115358952A (zh) 一种基于元学习的图像增强方法、***、设备和存储介质
CN115171042A (zh) 一种学生课堂行为的识别方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020816

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200124