CN111523390A - 一种图像识别的方法及增强现实ar图标识别的*** - Google Patents
一种图像识别的方法及增强现实ar图标识别的*** Download PDFInfo
- Publication number
- CN111523390A CN111523390A CN202010217757.1A CN202010217757A CN111523390A CN 111523390 A CN111523390 A CN 111523390A CN 202010217757 A CN202010217757 A CN 202010217757A CN 111523390 A CN111523390 A CN 111523390A
- Authority
- CN
- China
- Prior art keywords
- icon
- image
- frame
- candidate
- candidate frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003190 augmentative effect Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims description 47
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000004931 aggregating effect Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 68
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000002776 aggregation Effects 0.000 claims description 20
- 238000004220 aggregation Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 230000003993 interaction Effects 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000005286 illumination Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种增强现实AR图标识别的***,该***包括:投影机、主控装置和摄像装置;其中,该主控装置分别和该投影机、该摄像装置连接;该投影机投射图像在该摄像装置的工作区域;该摄像装置获取待识别的图标的该图像;该主控装置根据该图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取该图像的前景区域得到第一候选框;将该第一候选框进行分类聚合,得到第二候选框;该MTCNN模型的Rnet层从该第二候选框中截取该图标的图像,识别该图标的类别;该主控装置根据该图标的类别,指示该投影机播放与该类别对应的动效,解决了AR投影***图标检测准确率和效率不高的问题,提高了AR投影***图标检测准确率和效率。
Description
技术领域
本发明涉及图像识别领域,具体而言,涉及一种图像识别的方法及增强现实AR图标识别的***。
背景技术
交互式增强现实(Augmented Reality,简称为AR)投影***为将投影仪与彩色深度相机组合在一起的人机交互***,通过投影仪将交互界面投影到任意平面上,通过彩色深度相机检测人体手势交互动作,并通过投影仪响应,在识别出的物体或特定位置播放动画、图片和声音,达到增强现实的目的,非常适合用于教育和娱乐等行业。
而在AR投影***检测场景下,需要实现的是多类别的图标检测;并且图标的特征相比于人脸、车辆等更为贫乏,图标之间可能存在尺度差异,存在混淆等各类情况;此外还要求模型的快速开发,每个应用软件APP即对应不同的检测模型,无法花费大量时间采集大量数据用于模型训练。另外,在交互式AR投影***识别场景进行图标识别有两个特点,首先是光影条件复杂,其次是延时要求较高。因此所开发算法需要达到轻量的要求,从而以降低耗时,并且具有较好的光照不变性以应对过亮过暗等光照变化,并完成多图标类型分类和识别。
在相关技术中,在AR投影***图标检测的过程中,多任务卷积神经网络(Multi-task Cascaded Convolutional Networks,简称为MTCNN)算法的直接使用与扩展,或对特征点数量进行调整,或对网络结构进行细微改变,或串联新的特征强化模块,完成对应调整后直接迁移到不同的使用场景下,本质上均为单一类别的关键点检测,并且均需要采集大量的数据以保证MTCNN的训练效果。
针对相关技术中,AR投影***图标检测准确率和效率不高的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中,AR投影***图标检测准确率和效率不高的问题,本发明的实施例至少解决上述问题。
根据本发明的一个方面,提供了一种图标识别方法,所述方法包括:
获取图标的图像,对所述图像上的图标标记标注框;
根据所述标注框为基准确定训练样本,对所述训练样本进行数据增强;
根据所述训练样本,训练多任务卷积神经网络MTCNN模型,得到并优化所述图标在所述图像的前景图像和识别类型;
根据识别的预设条件,筛选并保存所述MTCNN模型,所述MTCNN模型用于所述图标的图像识别。
在其中一个实施例中,所述根据所述标注框为基准确定训练样本包括:
根据所述标注框为基准,生成候选框;
根据标注框和候选框的交并比IOU,确定所述图标的前景区域和识别类别的训练样本。
在其中一个实施例中,所述根据所述标注框为基准确定训练样本,对所述训练样本进行数据增强包括:
根据预设比例,以所述标注框为基准外延获得扩展框;
在所述扩展框内部执行grabcut算法,完成前景标注的提取;
在所述前景标注上确定标注框和候选框,根据标注框和候选框的交并比IOU,确定所述图标的前景区域和识别类别的训练样本。
在其中一个实施例中,所述根据所述训练样本,训练多任务卷积神经网络MTCNN模型,得到并优化所述图标在所述图像的前景图像和识别类型包括:
在所述MTCNN模型包括Pnet层和Rnet的情况下,所述Pnet层和所述Rnet级联,所述训练样本输入所述Pnet层提取所述图标的前景区域,所述Rnet识别所述图标的类别以及优化所述图标的前景区域的位置。
根据本发明的另一个方面,还提供了一种图标识别方法,应用于增强现实AR投影***,所述方法包括:
获取待识别的图标的图像;
根据所述图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取所述图像的前景区域得到第一候选框;
将所述第一候选框进行分层聚合,得到第二候选框;
所述MTCNN模型的Rnet层从所述第二候选框中截取所述图标的图像,识别所述图标的类别。
在其中一个实施例中,所述获取待识别的图标的图像包括:
在投影图像的预设检测区域内,获取待识别的图标的图像。
在其中一个实施例中,所述将所述第一候选框进行分层聚合,得到第二候选框包括:
在各个所述第一候选框的位置重叠的情况下,将多个所述第一候选框归为一类候选框,并将多个所述第一候选框的外接矩形作为所述第二候选框的外接矩形。
在其中一个实施例中,所述识别所述图标的类别之后,所述方法包括:
根据所述类别生成指示信号,所述指示信号用于指示投影机播放与所述类别对应的动效。
在其中一个实施例中,所述获取待识别的图标的图像之前,所述方法包括:
检测到投影区域的投影触发按钮被触发的情况下,生成触发指令,所述触发指令指示获取所述图标的图像。
根据本发明的另一个方面,还提供了一种增强现实AR图标识别的***,所述***包括:投影机、主控装置和摄像装置;其中,所述主控装置分别和所述投影机、所述摄像装置连接;
所述投影机投射图像在所述摄像装置的工作区域;
所述摄像装置获取待识别的图标的所述图像;
所述主控装置根据所述图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取所述图像的前景区域得到第一候选框;将所述第一候选框进行分类聚合,得到第二候选框;
所述MTCNN模型的Rnet层从所述第二候选框中截取所述图标的图像,识别所述图标的类别;
所述主控装置根据所述图标的类别,指示所述投影机播放与所述类别对应的动效。
通过本发明,提供了一种增强现实AR图标识别的***,该***包括:投影机、主控装置和摄像装置;其中,该主控装置分别和该投影机、该摄像装置连接;该投影机投射图像在该摄像装置的工作区域;该摄像装置获取待识别的图标的该图像;该主控装置根据该图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取该图像的前景区域得到第一候选框;将该第一候选框进行分类聚合,得到第二候选框;该MTCNN模型的Rnet层从该第二候选框中截取该图标的图像,识别该图标的类别;该主控装置根据该图标的类别,指示该投影机播放与该类别对应的动效,解决了AR投影***图标检测准确率和效率不高的问题,提高了AR投影***图标检测准确率和效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种增强现实AR图标识别***的结构框图;
图2是根据本发明实施例的一种图标识别方法的流程图一;
图3是根据本发明实施例的训练样本标注的场景示意图;
图4是根据本发明实施例的前景标注提取外延扩展的效果示意图;
图5是根据本发明实施例的前景标注提取后的效果示意图;
图6是根据本发明实施例的前景标注替换背景数据增加的示意图;
图7是根据本发明实施例的图标识别的训练阶段的流程示意图;
图8为根据本发明实施例的一种图标识别方法的流程图二;
图9是根据本发明实施例的基于MTCNN模型图标检测的流程示意图;
图10是根据本发明实施例的编程APP对编程图标进行检测的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
交互式AR投影***是将投影仪与彩色深度相机组合在一起的人机交互***,通过投影仪将交互界面投影到任意平面上,通过彩色深度相机检测人体手势交互动作,并通过投影仪响应,在识别出的物体或特定位置播放动画/图片/声音,达到增强现实的目的,非常适合用于教育行业。
彩色深度相机:一种可采集彩色图像(RGB Frame)与深度图像(Depth Frame)的设备,可缩写为“RGB-D相机”。彩色图像获取原理同普通相机;深度图像获取原理包括结构光、飞行时间(Time of Flying)、双目相机等。以结构光方案为例,相机包括红外发射模块、红外补光模块、RGB+红外摄像头模块等。
投影机是一种可以将图像或视频投射到任意平面上的设备,投影机厂家把数字微反射器(Digital Micromirror Device,简称为DMD)显示核心、光源、镜头光路、散热全部集中在一个机构里,做成一个整体部件。
在本实施例中,提供了一种增强现实AR图标识别的***,图1是根据本发明实施例的一种增强现实AR图标识别***的结构框图,如图1所示,该***包括:投影机12、主控装置14和摄像装置16;其中,该主控装置14分别和该投影机12、该摄像装置16连接;该投影机12投射图像在该摄像装置16的工作区域;该摄像装置16获取待识别的图标的该图像;该主控装置14根据该图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取该图像的前景区域得到第一候选框;将该第一候选框进行分类聚合,得到第二候选框;该MTCNN模型的Rnet层从该第二候选框中截取该图标的图像,识别该图标的类别;该主控装置14根据该图标的类别,指示该投影机12播放与该类别对应的动效,通过上述***,解决了AR投影***图标检测准确率和效率不高的问题,提高了AR投影***图标检测准确率和效率。
在一个实施例中,借助交互式AR投影***实现卡片类图标检测是一种非常受欢迎的教育形式。基于检测算法可以开发多类APP,幼儿可以通过与实体卡片的交互完成相应的学习,具体包括动物检测、颜色形状检测等等。相比于pad、手机等纯粹的点击交互,与卡片图标等物体进行实体交互,其形式更为丰富也更受幼儿欢迎。
本发明的实施例提供一套新型交互式AR投影***的物体检测算法,基于MTCNN实现图标的稳定检测,特别适用于幼教和教育的场景,根据教育场景的不同,不同的APP对应不同的检测内容,例如动物图标检测、植物图标检测、形状图标检测等,对应需要根据不同的场景提供不同的检测模型,需要实现模型的快速开发,构建通用且鲁棒的从数据生成到模型训练的流程;实际使用交互式AR投影***时,对应的app的背景投影会叠加在实体卡片上;同时彩色相机获取图像时容易受到环境光照影响,产生过曝、过暗等问题;因此检测算法需要对光影变化鲁棒;相比于完全固定位置的卡片识别算法,不固定位置检测的应用范围更广,不论是对APP的开发还是对幼儿用户的使用都更为友好,因此检测算法需要实现一定区域内的卡片检测;同时考虑到AR投影***的硬件限制,检测算法前向延时要小,整体检测延时应在500ms以内;如果实际识别的物体之间容易发生混淆也需要检测算法具有区分的能力,降低误检与漏检。例如,进行颜色与形状类别物体检测时,长方形为两个正方形拼接而成,检测算法需要避免将长方形误检为两个正方形。
在本实施例中,提供了一种图标识别的方法,图2是根据本发明实施例的一种图标识别方法的流程图一,如图2所示,该方法包括如下步骤:
步骤S202,获取图标的图像,对该图像上的图标标记标注框;其中,通过AR投影***采集待识别图标的图像,例如,获取的图像大小可以为640x480像素,其中,可以包含有多个待识别的图标,需要对所有的图标提供矩形标注框,可选labelme等标注软件进行标注框标注;
步骤S204,根据该标注框为基准确定训练样本,对该训练样本进行数据增强,训练样本提取后需要进行数据增强,该数据增强包括添加旋转、透视变换等几何变换等增强,另外,因为AR投影***需要适应对光照的需求较高,因此还需要添加光照增强,可以包括模拟过曝、阴影、对比度变化等不同情况下的数据状态,训练样本数据增强完毕以后,也可以统一缩放到一定尺度以便于后续模型训练;
步骤S206,根据该训练样本,训练多任务卷积神经网络MTCNN模型,得到并优化该图标在该图像的前景图像和识别类型,该MTCNN模型可以实现图标的前景图像和多类别检测;
步骤S208,根据识别的预设条件,筛选并保存该MTCNN模型,该MTCNN模型用于该图标的图像识别,其中,可以从中各个训练的MTCNN模型中筛选出效果较好的组合,转换为常用的pb格式后用于后续图像识别的应用。
通过上述步骤S202至S210,该方法包括训练阶段与检测阶段两个部分,其中训练阶段根据标注的图标的图像确定训练样本,根据训练样本训练该MTCNN模型,检测阶段借助得到的MTCNN模型进行实际场景下的图标检测,解决了AR投影***图标检测准确率和效率不高的问题,提高了AR投影***图标检测准确率和效率。
在一个实施例中,该根据该标注框为基准确定训练样本的过程包括:根据该标注框为基准,生成候选框;根据标注框和候选框的交并比(Intersection-over-Union,简称为IOU),确定该图标的前景区域和识别类别的训练样本。可选的,MTCNN模型实现检测需要从输入图像中提取前景区域并判定其具体类别,图3是根据本发明实施例的训练样本标注的场景示意图,如图3所示,训练样本可以包括根据标注数据生成pos样本、part样本与neg样本,其中,pos样本指导网络定位前景区域与识别类别,part样本指导网络定位前景区域,neg样本指导网络识别背景区域。其中,训练样本的数据生成方法为以标注框为基准,随机生成不同尺度不同位置的候选矩形区域,通过判定与标注框的IOU进行分类,其中,IOU是目标检测中使用的一个概念,计算产生的area(C)(候选框(candidate bound))与area(G)(原标注框(ground truth bound))的交叠率,即它们的交集与并集的比值,如计算公式1所示:
其中,与标注框IOU小于0.3的候选框为neg样本,与标注框IOU大于0.65的候选框为pos样本,与标注框IOU介于中间的候选框为part样本。此外在类别标注中以0代表neg样本,以1~n代表pos样本,以-1~-n代表part样本。在一个实施例中,该根据该标注框为基准确定训练样本,对该训练样本进行数据增强包括:根据预设比例,以该标注框为基准外延获得扩展框;在该扩展框内部执行grabcut算法,完成前景标注的提取;在该前景标注上确定标注框和候选框,根据标注框和候选框的交并比IOU,确定该图标的前景区域和识别类别的训练样本,例如,在训练样本数据生成过程中,因为标注框始终为矩形,位于前景区域内部,但是如果在训练样本生成过程中对前景区域造成破坏,可能会影响识别稳定,因此需要进一步提取前景区域,在训练样本数据中确保前景区域完整性的情况下,可以减少图标所在背景的影响,但是如果图标前景具有不规则形状,那么手动标注前景区域过于费时费力,则可以使用grabcut算法自动提取前景,图4是根据本发明实施例的前景标注提取外延扩展的效果示意图,图5是根据本发明实施例的前景标注提取后的效果示意图,如图4和图5所示,提取的具体流程为:以原有的矩形标注框为基准,外延得到扩展框,扩展比例1.2,可根据实际图标情况调整;在扩展框内部执行grabcut算法,完成前景标注提取;另外,图6是根据本发明实施例的前景标注替换背景数据增加的示意图,如图6所示,在提取前景标注后,可以通过多个预设背景的替换进行数据增强,并且可以在在前景标注的基础上,以标注框为基准生成pos样本、part样本与neg样本,确保前景标注后训练样本整体的完整性,提升识别模型对不同桌面环境的鲁棒性,通过上述前景标注的提取,对该训练样本进行数据增强,提高了图标识别的精确度。
在一些实施例中,在该MTCNN模型包括Pnet层和Rnet层的情况下,该Pnet层和该Rnet层级联,该训练样本输入该Pnet层提取该图标的前景区域,该Rnet层识别该图标的类别以及优化该图标的前景区域的位置。其中,图7是根据本发明实施例的图标识别的训练阶段的流程示意图,如图7所示,训练样本数据增强完毕以后,可以统一缩放到一定尺度以便于模型训练,其中,Pnet层可以要求输入数据大小为12x12像素,Rnet层可以要求输入数据大小为24x24像素;进一步对训练样本数据进行管理与封装,管理与封装包括控制neg-part-pos样本的比例为2:1:1,将数据封装为训练所需的格式等。该MTCNN模型中Pnet层和Rnet层级联检测算法将相关技术中的单类别关键点检测迁移到多类别检测,对该算法进行修改,取消了关键点检测第三级网络,并将Pnet层和Rnet层前两级神经网络拓展为多类别检测,实现神经网络训练功能的增强与优化。
另外,MTCNN模型需要训练包括Pnet层与Rnet层在内的两层,使用时为级联使用,Pnet层在全图上完成检测提取前景区域,Rnet层进一步在前景区域中完成识别得到具体类别并优化前景位置,最后返回结果。可以分别使用对应尺度的训练样本数据分别训练Pnet层与Rnet层。本发明实施例的模型并不指定训练所使用的框架,可以使用matlab、caffe、tensorflow、keras和pytorch等多种框架,优选的可以使用tensorflow完成相应训练。其中,该Pnet层与Rnet层均可以为全卷积网络,包含有前景判断、最小外接矩形(Boundingbox,简称为bbox)回归、类别分类三个分支。模型训练完毕以后,需要验证Pnet层检测+Rnet层识别的级联模型效果,从中各个历史的训练模型中筛选出效果较好的组合,转换为常用的pb格式后用于后续图像识别的检测阶段。
在本实施例中,提供了一种图标识别的方法,该方法应用于增强现实AR投影***,图8为根据本发明实施例的一种图标识别方法的流程图二,图9是根据本发明实施例的基于MTCNN模型图标检测的流程示意图,如图8和图9所示,该方法包括如下步骤:
步骤S502,获取待识别的图标的图像,获取的该图像可以为AR投影***投影的高分辨率彩色图,例如,该图像为640*480像素的彩色图;
步骤S504,根据该图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取该图像的前景区域得到第一候选框,该第一候选框进行分层聚合,得到第二候选框;其中,在AR投影***载入Pnet层与Rnet层文件之后,计算该图标的预设尺度与Pnet层训练尺度的比值,缩放图像的原图后,运行Pnet层执行检测提取出对应的前景区域,得到Pnet层的候选框,该候选框包含位置信息与类别信息,例如,待识别图标大小约为50*50像素,则预设尺度为50,与Pnet层训练尺度12的比值为0.24,则将原图缩小到0.24倍。在一些实施例中,因为在相同执行任务中图标的卡片的大小基本一致,因此Pnet层的检测阶段也仅仅固定为一个尺度即可,同时得益于Pnet层对前景区域的适应性,图标的预设尺度对AR投影***的干扰并不敏感,具有较好的尺度不变性。此外,在送入Pnet层识别的图像过小的情况下,Pnet层得到的类别结果往往不准确,可以进一步通过Rnet层准确分类;当所有图标的大小基本一致,或图标大小不一致但是相互之间不易混淆时,直接将Pnet层生成的候选框送入Rnet层分类即可,但是如果出现图标混淆时,例如,图标A的局部与图标B相似,则直接送入Rnet层训练会造成误检测。此时需要对Pnet层的候选框进行分层聚合,获得位置、大小基本正确的候选框送入Rnet层;
步骤S506,该MTCNN模型的Rnet层从该第二候选框中截取该图标的图像,识别该图标的类别,利用Pnet层直接生成或者分层聚合后的候选框从原图中截取对应图像,缩放到24x24像素后送入Rnet层进行类别识别,并对候选框的位置进行优化。
通过步骤S502至步骤S506,AR投影***场景的需求,实现卡片类图标的快速检测,MTCNN模型算法实现了多类别检测中,并通过分层聚合算法使该模型支持不同尺度图标的检测,识别速度快且准确,适用于教育等相关场景下的交互案例开发,解决了AR投影***图标检测准确率和效率不高的问题,提高了AR投影***图标检测准确率和效率。
在一个实施例中,该将该第一候选框进行分层聚合,得到第二候选框包括:在各个该第一候选框的位置重叠的情况下,将多个该第一候选框归为一类候选框,并将多个该第一候选框的外接矩形作为该第二候选框的外接矩形。聚合的方法为根据各个候选框的位置判断其相关性,将位置重叠的候选框归为一类并生成外接矩形作为整体的候选框。分层的含义即为通过小尺度候选框的聚合,得到大尺度候选框。在分层聚合的流程中,输入的是Pnet层生成的所有候选框,输出的是经过聚合以后的候选框,具体的流程如下:
步骤S1,获得Pnet层生成的所有候选框,总数为n;
步骤S2,候选框之间两两计算相交程度,生成n*n的上三角候选框距离矩阵D;
步骤S3,所有候选框排序,以各自序号作为聚合id,得到聚合向量C,初始状态下所有候选框相互独立;
步骤S4,候选框for i=1…n遍历;
步骤S5,候选框for j=i…n遍历;
步骤S6,如果距离dij大于阈值,则根据对应情况将候选框j与候选框i合并;
步骤S7,候选框i与j均独立,则Cj=i;
步骤S8,候选框i独立,候选框j不独立,此时必然Cj<i,则Ci=j;
步骤S9,候选框i不独立,候选框j独立,则Cj=i;
步骤S10,候选框i与j均不独立,则Min=min(Cj,Ci),Max=max(Cj,Ci),遍历聚合向量C,将其中等于Max的值替换为Min;
步骤S11,得到更新后的聚合向量C,其中不重复的id即为聚合中心;
步骤S12,依据聚合向量C将隶属于相同聚合中心的候选框进行融合,取上下极值得到外界矩形;
步骤S13,返回所有的外接矩形即为Pnet分层聚合后的候选框。
通过分层聚合的算法,AR投影***的识别的神经网络模型可以适应不同尺度的图标的检测。如果直接通过神经网络模型解决多尺度问题,则需要采集更多的训练数据,使用更大更重的神经网络模型,部署的前向耗时增加,同时也无法完全杜绝误检问题。分层聚合仅仅通过数据后处理就解决多尺度混淆问题,更为灵活高效。
在一个实施例中,在投影图像的预设检测区域内,获取待识别的图标的图像,图10是根据本发明实施例的编程APP对编程图标进行检测的示意图,如图10所示,在该AR图标识别的***,进入对应APP中准备与图标对应卡片检测,MTCNN算法模型对提供的整个投影区域的图像进行检测。另一种实施方式,可以在投影区域预先设定检测区域,在该设定的检测区域,通MTCNN算法模型对该投影区域中预先设定的检测区域进行检测,进一步减少MTCNN算法模型的前向延时。
在一个实施例中,检测到投影区域的投影触发按钮被触发的情况下,再生成触发指令,该触发指令指示获取该图标的图像。例如,将待识别卡片图标放置在投影区域中,并点击投影区域上检测的触发按钮,投影***的操作***端触发检测任务,通过MTCNN算法对整个投影区域或者预设的检测区域的图像进行检测,通过上述方式,可以只在触发检测的情况下,进行图标的检测,降低了AR投影***的能耗。
在一个实施例中,该识别该图标的类别之后,根据该类别生成指示信号,该指示信号用于指示投影机12播放与该类别对应的动效,将识别结果返回给AR投影***的***层,投影***接收到识别结果后,通过投影机投影,播放对应的动画、声音效果等等,检测算法等待继续下一次检测触发。
在本发明的另一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现的一种图标识别的方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上该实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图标识别方法,其特征在于,所述方法包括:
获取图标的图像,对所述图像上的图标标记标注框;
根据所述标注框为基准确定训练样本,对所述训练样本进行数据增强;
根据所述训练样本,训练多任务卷积神经网络MTCNN模型,得到并优化所述图标在所述图像的前景图像和识别类型;
根据识别的预设条件,筛选并保存所述MTCNN模型,所述MTCNN模型用于所述图标的图像识别。
2.根据权利要求1所述方法,其特征在于,所述根据所述标注框为基准确定训练样本包括:
根据所述标注框为基准,生成候选框;
根据标注框和候选框的交并比IOU,确定所述图标的前景区域和识别类别的训练样本。
3.根据权利要求1所述方法,其特征在于,所述根据所述标注框为基准确定训练样本,对所述训练样本进行数据增强包括:
根据预设比例,以所述标注框为基准外延获得扩展框;
在所述扩展框内部执行grabcut算法,完成前景标注的提取并替换所述前景标注的背景进行数据增强;
在所述前景标注上确定标注框和候选框,根据标注框和候选框的交并比IOU,确定所述图标的前景区域和识别类别的训练样本。
4.根据权利要求1所述方法,其特征在于,所述根据所述训练样本,训练多任务卷积神经网络MTCNN模型,得到并优化所述图标在所述图像的前景图像和识别类型包括:
在所述MTCNN模型包括Pnet层和Rnet的情况下,所述Pnet层和所述Rnet级联,所述训练样本输入所述Pnet层提取所述图标的前景区域,所述Rnet识别所述图标的类别以及优化所述图标的前景区域的位置。
5.一种图标识别方法,其特征在于,应用于增强现实AR投影***,所述方法包括:
获取待识别的图标的图像;
根据所述图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取所述图像的前景区域得到第一候选框;
将所述第一候选框进行分层聚合,得到第二候选框;
所述MTCNN模型的Rnet层从所述第二候选框中截取所述图标的图像,识别所述图标的类别。
6.根据权利要求5所述方法,其特征在于,所述获取待识别的图标的图像包括:
在投影图像的预设检测区域内,获取待识别的图标的图像。
7.根据权利要求5所述方法,其特征在于,所述将所述第一候选框进行分层聚合,得到第二候选框包括:
在各个所述第一候选框的位置重叠的情况下,将多个所述第一候选框归为一类候选框,并将多个所述第一候选框的外接矩形作为所述第二候选框的外接矩形。
8.根据权利要求5所述方法,其特征在于,所述识别所述图标的类别之后,所述方法包括:
根据所述类别生成指示信号,所述指示信号用于指示投影机播放与所述类别对应的动效。
9.根据权利要求5所述方法,其特征在于,所述获取待识别的图标的图像之前,所述方法包括:
检测到投影区域的投影触发按钮被触发的情况下,生成触发指令,所述触发指令指示获取所述图标的图像。
10.一种增强现实AR图标识别的***,其特征在于,所述***包括:投影机、主控装置和摄像装置;其中,所述主控装置分别和所述投影机、所述摄像装置连接;
所述投影机投射图像在所述摄像装置的工作区域;
所述摄像装置获取待识别的图标的所述图像;
所述主控装置根据所述图像,通过多任务卷积神经网络MTCNN模型的Pnet层提取所述图像的前景区域得到第一候选框;将所述第一候选框进行分类聚合,得到第二候选框;
所述MTCNN模型的Rnet层从所述第二候选框中截取所述图标的图像,识别所述图标的类别;
所述主控装置14根据所述图标的类别,指示所述投影机播放与所述类别对应的动效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217757.1A CN111523390B (zh) | 2020-03-25 | 2020-03-25 | 一种图像识别的方法及增强现实ar图标识别的*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010217757.1A CN111523390B (zh) | 2020-03-25 | 2020-03-25 | 一种图像识别的方法及增强现实ar图标识别的*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523390A true CN111523390A (zh) | 2020-08-11 |
CN111523390B CN111523390B (zh) | 2023-11-03 |
Family
ID=71910429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010217757.1A Active CN111523390B (zh) | 2020-03-25 | 2020-03-25 | 一种图像识别的方法及增强现实ar图标识别的*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523390B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686851A (zh) * | 2020-12-25 | 2021-04-20 | 合肥联宝信息技术有限公司 | 一种图像检测方法、装置及存储介质 |
CN113012189A (zh) * | 2021-03-31 | 2021-06-22 | 影石创新科技股份有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN113409231A (zh) * | 2021-06-10 | 2021-09-17 | 杭州易现先进科技有限公司 | 一种基于深度学习的ar人像拍照方法和*** |
CN113808186A (zh) * | 2021-03-04 | 2021-12-17 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060034484A1 (en) * | 2004-08-16 | 2006-02-16 | Claus Bahlmann | Method for traffic sign detection |
CN107609485A (zh) * | 2017-08-16 | 2018-01-19 | 中国科学院自动化研究所 | 交通标志的识别方法、存储介质、处理设备 |
CN107977671A (zh) * | 2017-10-27 | 2018-05-01 | 浙江工业大学 | 一种基于多任务卷积神经网络的舌象分类方法 |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
US20190026884A1 (en) * | 2016-03-30 | 2019-01-24 | Institute Of Automation, Chinese Academy Of Sciences | Method for assessing aesthetic quality of natural image based on multi-task deep learning |
CN109635768A (zh) * | 2018-12-20 | 2019-04-16 | 深圳市捷顺科技实业股份有限公司 | 一种图像帧中停车位状态检测方法、***及相关设备 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及*** |
US20200019759A1 (en) * | 2018-07-11 | 2020-01-16 | Samsung Electronics Co., Ltd. | Simultaneous recognition of facial attributes and identity in organizing photo albums |
CN110826391A (zh) * | 2019-09-10 | 2020-02-21 | 中国三峡建设管理有限公司 | 泌水区域检测方法、***、计算机设备和存储介质 |
-
2020
- 2020-03-25 CN CN202010217757.1A patent/CN111523390B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060034484A1 (en) * | 2004-08-16 | 2006-02-16 | Claus Bahlmann | Method for traffic sign detection |
US20190026884A1 (en) * | 2016-03-30 | 2019-01-24 | Institute Of Automation, Chinese Academy Of Sciences | Method for assessing aesthetic quality of natural image based on multi-task deep learning |
CN107609485A (zh) * | 2017-08-16 | 2018-01-19 | 中国科学院自动化研究所 | 交通标志的识别方法、存储介质、处理设备 |
CN107977671A (zh) * | 2017-10-27 | 2018-05-01 | 浙江工业大学 | 一种基于多任务卷积神经网络的舌象分类方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及*** |
CN108764208A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
US20200019759A1 (en) * | 2018-07-11 | 2020-01-16 | Samsung Electronics Co., Ltd. | Simultaneous recognition of facial attributes and identity in organizing photo albums |
CN109635768A (zh) * | 2018-12-20 | 2019-04-16 | 深圳市捷顺科技实业股份有限公司 | 一种图像帧中停车位状态检测方法、***及相关设备 |
CN110826391A (zh) * | 2019-09-10 | 2020-02-21 | 中国三峡建设管理有限公司 | 泌水区域检测方法、***、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
ZHAOWEI CAI ET AL.: "Cascade R-CNN: Delving into High Quality Object Detection" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686851A (zh) * | 2020-12-25 | 2021-04-20 | 合肥联宝信息技术有限公司 | 一种图像检测方法、装置及存储介质 |
CN112686851B (zh) * | 2020-12-25 | 2022-02-08 | 合肥联宝信息技术有限公司 | 一种图像检测方法、装置及存储介质 |
CN113808186A (zh) * | 2021-03-04 | 2021-12-17 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
CN113808186B (zh) * | 2021-03-04 | 2024-01-16 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
CN113012189A (zh) * | 2021-03-31 | 2021-06-22 | 影石创新科技股份有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN113409231A (zh) * | 2021-06-10 | 2021-09-17 | 杭州易现先进科技有限公司 | 一种基于深度学习的ar人像拍照方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN111523390B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846556B2 (en) | Vehicle insurance image processing method, apparatus, server, and system | |
CN111523390B (zh) | 一种图像识别的方法及增强现实ar图标识别的*** | |
CN109947967B (zh) | 图像识别方法、装置、存储介质和计算机设备 | |
KR102220174B1 (ko) | 머신러닝 학습 데이터 증강장치 및 증강방법 | |
CN112560999A (zh) | 一种目标检测模型训练方法、装置、电子设备及存储介质 | |
CN111368600A (zh) | 遥感图像目标检测识别方法、装置、可读存储介质及设备 | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
Beyeler | OpenCV with Python blueprints | |
WO2023024442A1 (zh) | 检测方法、训练方法、装置、设备、存储介质和程序产品 | |
CN111476271B (zh) | 图标识别的方法、装置、***、计算机设备和存储介质 | |
CN111368944B (zh) | 翻拍图像、证件照识别、模型训练方法、装置及电子设备 | |
CN111797769B (zh) | 一种小目标敏感的车辆检测*** | |
US10891740B2 (en) | Moving object tracking apparatus, moving object tracking method, and computer program product | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
CN114511589A (zh) | 一种人体跟踪方法和*** | |
Bong et al. | Face recognition and detection using haars features with template matching algorithm | |
CN115546824B (zh) | 禁忌图片识别方法、设备及存储介质 | |
CN111488776A (zh) | 对象检测方法、对象检测装置和电子设备 | |
Barra et al. | Can Existing 3D Monocular Object Detection Methods Work in Roadside Contexts? A Reproducibility Study | |
CN114821062A (zh) | 基于图像分割的商品识别方法及装置 | |
CN115115906A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
Bekhit | Computer Vision and Augmented Reality in iOS | |
CN114998962A (zh) | 一种活体检测以及模型训练方法及装置 | |
CN114596624B (zh) | 人眼状态检测方法、装置、电子设备及存储介质 | |
Qian et al. | Multi-Scale tiny region gesture recognition towards 3D object manipulation in industrial design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |