CN106575365B - 对象识别特点分析***和方法 - Google Patents
对象识别特点分析***和方法 Download PDFInfo
- Publication number
- CN106575365B CN106575365B CN201580023387.5A CN201580023387A CN106575365B CN 106575365 B CN106575365 B CN 106575365B CN 201580023387 A CN201580023387 A CN 201580023387A CN 106575365 B CN106575365 B CN 106575365B
- Authority
- CN
- China
- Prior art keywords
- scene
- trait
- features
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
提出了一种用于在对象识别摄取生态***中分析场景特点的***。在某些实施例中,特点分析引擎分析场景的数字表示以导出一个或多个特征。特征被编译成相对于特征空间的相似特征集。引擎尝试发现场景中的哪些特点(例如,温度、照明、重力等)可以用来出于对象识别的目的区别特征。当发现此类区别性特点时,用对象信息来填充对象识别数据库,可能根据相似特征及其相应的区别性特点而编索引。
Description
相关申请的交叉引用
本申请要求2014年2月28日提交的美国临时申请号61/946,650的权益。该申请的全部内容被通过引用结合到本文中。
技术领域
本发明的领域是对象识别特点分析技术。
背景技术
以下背景描述包括在理解本发明时可能有用的信息。并不承认在本文中提供的任何信息是现有技术或与当前要求保护的发明有关或者具体地或隐含地提及的任何公开是现有技术。
基于图像的对象识别技术严重依赖于从图像提取特征的识别算法。例如,2000年3月6日提交的授予Lowe的题为“Method and Apparatus for Identifying ScaleInvariant Features in an Image and Use of Same for Locating an Object in anImage”美国专利6,711,293描述了一种以描述符的形式生成尺度不变特征的算法,尺度不变特征变换(SIFT)。遗憾的是,描述符的不变性可能导致问题。如果对象或对象集合包括非常相似或重复的特征,则生成的描述符将彼此非常相似,从而降低其对象辨别能力。此外,在表示具有许多对象的复杂场景或环境的图像数据中,此类算法可以导致数千个描述符,其可以包括与已知对象的许多假阳性匹配。
其他人已经致力于识别如何基于图像数据本身内的变化(variance)来辨别对象。例如,2011年1月31日提交、授予Shiell等人的题为“Hierarchical Tree AAM”的美国专利8,306,257利用相对于模型图像的变化度量来确定如何在其中图像的变化是相对于图像模型的树的节点之间划分图像集合。此外,1991年12月18日提交的授予Katz的题为“Generalized Hebbian Learning for Principal Component Analysis and AutomaticTarget Recognition,Systems and Methods”的美国专利6,894,639取得了进一步进展。Katz描述了使用选定目标特性特征信息来从图像数据中的杂乱背景区别目标。Katz经由主成分滤波器利用图像特征的变化来分离目标。有趣的是,Katz仅集中于相对于仅从图像数据可用的数据导出变化。这种主成分滤波器在其中存在具有非常相似的特征的大量对象;例如墙壁中的砖的情况下仍将失败。
通过将重力信息与特征组合已取得了另外的进展,如Kurz等人在题为“Gravity-Aware Handheld Augmented Reality”(Proc.IEEE and ACM International Symposiumon Mixed and Augmented Reality(ISMAR2011),pp.111-120,Basel,Switzerland,2011)中和Kurz等人的题Inertial sensor-aligned visual feature descriptors”(Proc.WIEEE Conference on Computer Vision and Pattern Recognition(CVPR2011),pp.161-166,Colorado Springs,USA,2011)中所讨论的。使用重力信息至少在一定水平上提供了区别相似描述符;例如从窗户的拐角生成的描述符的能力。
本文中的所有出版物被通过引用结合到本文中,达到如同每个单独的出版物或专利申请被具体地且单独地指示为被通过引用结合一样的程度。在结合的参考文献中的术语的定义或使用与在本文中提供的术语的定义不一致或相反的情况下,适用在本文中提供的术语的定义,并且参考文献中的该术语的定义不适用。
发明内容
虽然Kurz提供了用于利用与特征组合的重力信息一般提供增强现实(AR)内容的适当取向的技术,但Kurz未能认识到一个环境可能基于环境特点而明显不同于另一环境。因此,场景或环境可以具有许多不同的特点,这也可能对对象辨别有用。仍需要允许发现环境或场景中的哪些特点将向识别特征提供进一步的对象辨别能力的技术。
本发明主题提供了其中一个或多个计算装置发现帮助增强基于特征的对象识别的场景属性的设备、***和方法。在某些实施例中,从由图像传感器捕捉的图像的数字表示导出特征,并且从场景特点传感器数据导出特点,特定的一组场景特点传感器数据按捕捉该数据的时间和场景而与特定数字表示相关。本发明主题的实施例的一个方面包括对象识别特点识别***,其包括特点分析引擎。在某些实施例中,***还包括场景特点数据库。在某些实施例中,***还包括对象识别***和相应对象识别数据库。场景特点数据库被配置或编程为存储表示场景或环境的性质(例如,照明条件、无线场强、重力等)的一个或多个场景特点。每个场景特点可以具有在场景属性空间内的相应值(例如,标量、矢量等)。特点分析引擎利用场景特点以求在共同地与对象或与许多对象相关联的相似对象识别特征之间进行区别。特点分析引擎被配置成获得场景中的对象的数字表示(例如,图像、视频、声音等),并且然后对该数字表示应用一个或多个识别算法以导出一个或多个特征,其中,特征存在于特征空间内。引擎还将特征的一部分编译成至少一个相似性特征集,其中,相似性特征集内的特征根据相似性度量而被认为彼此相似(例如,低变化、在特征空间中的紧密接近、聚类等)。虽然相似性特征集内的特征在特征空间内被认为彼此相似,但引擎相对于非特征、场景属性空间中的一个或多个场景特点分析相似特征,从而生成相对于已知场景特点的一个或多个特点变化。特点变化为引擎提供足以将至少一个特点选作用于相似性特征集中的特征的区别特点的信息。然后可以将该特征连同区别特点信息一起存储在对象识别数据库中。在替换实施例中,对跨多个场景捕捉的所有对象的识别应用场景特点分析,无论那些对象是否与相似性特征集中的描述符相关联。
根据优选实施例的以下详细描述以及其中相同附图标记表示相同部件的附图,本发明主题的各种目的、特征、方面和优点将变得更加显而易见。
附图说明
图1是根据本发明的一个实施例的对象识别特点分析***的示意图。
图2是由图1的实施例实现的处理的流程图。
图3A-图3C示出通过发现非特征、场景属性空间中的特点变化(图3B-图3C)进行的特征空间(图3A)中的一组相似特征的区别。
图4示出了根据本发明的实施例的可用来执行在计算机程序产品中包含的指令代码的计算机***(其中的一个或多个可提供图1的***100的组件)的示例。
具体实施方式
遍及以下讨论,将进行关于服务器、服务、接口、引擎、模块、客户端、对端、门户、平台或由计算装置形成的其它***的许多参考。应认识到的是此类术语的使用被认为表示具有被配置成执行存储在计算机可读有形、非临时介质(例如,硬驱、固态驱动器、RAM、闪存、ROM等)上的软件指令的至少一个处理器(例如,ASIC、FPGA、DSP、x86、ARM、ColdFire、GPU、多核处理器等)的一个或多个计算装置。例如,服务器可以包括一个或多个计算机,其以将履行所述角色、职责或功能的方式充当网络服务器、数据库服务器或其它类型的计算机服务器。应进一步认识到的是公开的基于计算机的算法、过程、方法或其它类型的指令集可以被体现为计算机程序产品,其包括存储促使处理器执行公开步骤的指令的非临时、有形计算机可读介质。各种服务器、***、数据库或接口可以使用标准化协议或算法来交换数据,可能基于HTTP、HTTPS、AES、公钥-私钥交换、网络服务SPI、已知金融交易协议或其它电子信息交换方法。可以通过分组交换网、因特网、LAN、WAN、VPN或其它类型的分组交换网来执行数据交换。
以下讨论提供了本发明主题的许多示例性实施例。虽然每个实施例表示本发明元素的单个组合,但认为本发明主题将包括公开元素的所有可能组合。因此,如果一个实施例包括元素A、B和C,并且第二实施例包括元素B和D,则也认为本发明主体将包括A、B、C或D的其它剩余组合,即使并未明确地公开。
如本文所使用的,并且除非上下文另外规定,术语“被耦合到”意图包括直接耦合(其中被相互耦合的两个元件相互接触)和间接耦合(其中至少一个附加元件位于两个元件之间)两者。因此,术语“被耦合到”和“与...耦合”被以同义词方式使用。
在某些实施例中,应将被用来描述并要求保护本发明的某些实施例的表示成分的数量、诸如浓度之类的性质、反应条件等的数字理解为在某些情况下被用术语“大约”进行修饰。因此,在某些实施例中,在编写的描述和所附权利要求中阐述的数值参数是可以根据特定实施例设法获得的期望性质而改变的近似值。在某些实施例中,应根据所报告的有效数字的数目并通过引用普通四舍五入技术来理解数值参数。尽管阐述本发明的某些实施例的宽泛范围的数值范围和参数是近似值,但在特定示例中阐述的数值值被尽可能精确地报告。在本发明的某些实施例中提出的数值值可包含必然从在其各测试测量中发现的标准偏差产生的某些误差。
如在本描述中和遍及随后的权利要求所使用的,“一”、“一个”和“该”的意义包括复数参考,除非上下文清楚地另外规定。并且,如在本文中的描述中所使用的“在...中”的意义包括“在...中”和“在...上”,除非上下文清楚地另外规定。
本文中的值范围的叙述仅仅意图充当单独地提及落在该范围内的每个单独值的简写方法。除非在本文中另外指明,每个单独值被结合到本说明书中,如同其在本文中被单独地叙述一样。可以按照任何适当的顺序来执行本文所述的所有方法,除非在本文中另外指明或者很明显与上下文矛盾。在本文中相对于某些实施例提供的任何和所有示例或示例性语言(例如“诸如”)的使用仅仅意图更好地举例说明本发明,而不对另外要求保护的本发明的范围施加限制。不应将本说明书中的语言理解为指示对于本发明的实施而言必不可少的任何未要求保护要素。
不应将在本文中公开的本发明的替换元素或实施例的分组理解为限制。可以单独地或与在本文中使用的群组的其它成员或其它元素的任何组合的方式提及并要求保护每个群组成员。由于方便和/或取得专利的可能性的原因,可以将群组的一个或多个成员包括在群组中或者从群组删除一个或多个成员。当任何此类包括或删除发生时,在本文中认为本说明书将包含被修改的群组,因此满足在所附权利要求中使用的所有Markush群组的编写描述。
公开的发明主题的焦点是使得计算装置的构造或配置能够对超出人类能力范围的大量数字数据进行操作。虽然数字数据表示场景中的对象,但应认识到数字数据是此类对象或场景的一个或多个数字模型而不是实际对象或场景的表示。因此,公开的计算装置将传感器数据转换成可以被数字处理器处理或操作的数字形式。通过此类数字模型在计算装置的存储器中的实例化,计算装置能够以提供超出人类能力之外的新能力的方式管理数字数据或模型。
应认识到的是公开技术通过利用对象识别***中的场景特点数据而提供了许多有利技术效果。特别地,公开技术允许有增强的计算机***性能,使得响应于对象识别搜索查询而返回较少的“假阳性”。除其它益处之外,这允许处理数字图像搜索以便以更大的准确度和降低的等待时间向最终用户装置输送结果。
图1示出根据本发明的实施例的包括特点分析引擎120的对象识别特点识别***100。特点分析引擎120表示被配置或编程为发现场景105的哪些特点向相似特征的集合提供对象辨别能力的计算装置或***。在所示实施例中,特点分析引擎120是在一个或多个服务器计算机101上实现的。识别***100还可以包括场景特点数据库110,其被配置成存储表示场景105的一个或多个场景特点130。此外,识别***100还可以包括对象识别***160和相应对象识别数据库150中的一个或多个。在一个方面,实施例应用机器学习技术来增强特点分析。在某些实施例中,基于来自来自对象识别***的对象识别结果的反馈而引导/增强发现。在其它实施例中,发现可以基于单独的和/或相对于彼此的特点变化而是“非引导的”。这可以通过利用跨与特定场景、时间、位置、深度以及特别地其它参数相关联的多个捕捉事件的场景特点与特征描述符之间的关系的特定***和方法来实现。
传感器***107包括诸如传感器107a之类的一个或多个传感器和诸如特点传感器107b之类的一个或多个特点传感器。在本文所示的主要示例中,传感器107a是成像传感器。然而,在替换实施例中,传感器107a可以是或者还包括其它类型的传感器(例如,声音传感器和/或其它传感器,如下面进一步描述的)。
场景105包括对象102。在本示例中,对象102包括玩具。然而,对象102可以是许多对象,可能包括例如运载工具、手工艺品、动物、植物、人类、器械、装置、文档、金融证券、游戏组件、海报、报纸、期刊、屏幕上内容或其它类型的对象。此外,在形成复杂环境的场景105中可以存在相互不同的多个对象,诸如对象102。还可以认为对象105对应于被摄取(即,分析、处理和/或导入)以用已知对象信息;描述符、特征、内容等来填充对象识别数据库150的对象数据库。应认识到的是可以认为对象102的数字表示包括对象类型或类别的表示。
传感器105与表示场景105的环境的一个或多个场景特点130相关联。每个特点可被视为场景属性空间内的维度,可能具有一个或多个维度。例如,场景特点可能包括场景的照明。场景特点可以根据相应特点而采取一个或多个值。照明值可能范围例如从低勒克斯值至高勒克斯值。其它场景特点可以包括重力信息、磁场、WiFi信号(例如,频率、振幅、相位等)、天气条件(例如,压力、温度、风等)或可以描述场景的其它特点。当特点采取特定值并被附着到已知特征时,特点值可以帮助增加描述符的对象分辨能力,如下面讨论的。
在某些实施例中,场景105存在于其中可以调整一个或多个场景特点130的受控对象摄取环境内。因此,场景特点130可以采取表示受控环境背景(例如,照明、磁场等)的值。考虑例如可以调整磁场以模拟地球上的地点的背景。因此,在某些实施例中,可以将诸如磁场之类的场景特点视为场景特点130的可调整参数。此外,场景特点130可以包括表示在场景105处收集(可能由特点传感器107b中的一个或多个收集)的环境特点传感器数据的数据。虽然环境传感器数据可以是本地收集的(例如,照明信息等),但也可能使场景特点130表示外部传感器数据(例如,天气数据等),可能是温度。因此,虽然在所示示例中,传感器107b被容纳在与传感器107a相同的装置内,但在替换实施例中,可以由被从场景105去除的传感器装置捕捉并从其提供相关特点信息(例如,经由卫星的天气捕捉)。
替换地,可以仅仅向场景105或对象102分配场景特点130。例如,对象102(可能是将在公共场所展示的艺术品)可能被摄取,使得一旦其被展出,则消费者可以使用其智能装置来将其识别。在此类示例中,场景特点130可能包括对应于对象102将在该处被展示的位置(例如,GPS坐标、三角测量位置等)的单个场景特点,即使对象102当前并不在该位置处。
场景特点数据库110表示被配置或编程为存储场景特点130及其相应值的数据仓库。虽然场景特点数据库110被示为数据库,但其婉转地表示各种可能数据仓库。例如,场景特点数据库110可以包括存储在存储器中或磁盘驱动器上的文件,其中,该文件包括场景105内的关联的特点以及相应值。因此,场景特点数据库110可以包括文件、文件***、存储器中的数据结构、常规数据库或其它存储***以供稍后检索。场景特点130包括场景特点数据库110中的数据对象或记录。此外,场景特点数据库110可以通过网络115与特点分析引擎120耦接。在替换实施例中,场景特点数据库110可以是特点分析引擎120的一部分或者更直接地耦接到特点分析引擎120。
传感器***107感测场景105以收集可以在摄取对象102时被分析的数据。在所示的示例中,传感器107***107包括图像传感器107a和一个或多个特点传感器107b。在本示例中,成像传感器107a(例如,照相机、CCD、CMOS等)能够捕捉对象102的图像作为将作为数字表示122被发送到并存储在服务器101中的数字表示。传感器107b感测与场景105相关联的特点。在某些示例中,传感器107a和/或107b包括各种类型的传感器,诸如包括温度计、霍尔探针、加速度计、声传感器、换能器、超声波换能器、磁强计、加速度计、近场无线传感器、WiFi传感器、陀螺仪、生物测量传感器或其它类型的传感器。鉴于传感器***107可以包括多个传感器或者甚至许多传感器类型的事实,数字表示122可以包括多种数据模态。每个数据模态将自然地对应于传感器***107中的传感器的性质。因此,数字表示122可以包括以下数字数据模态中的至少一个或多个:图像数据、视频数据、音频数据、3D数据、位置数据、时间数据、上下文数据、生物测量数据、加速度计数据、医学数据、游戏数据、一个特点值对比另一个的改变速率(例如,dx/dy、dx2/d2y、dx3/d3y、dx4/dy4等)或其它数据模态。
一般地,传感器***107随时间推移且在不同位置处捕捉各种场景的图像和特点数据。所捕捉图像和特点数据与唯一捕捉标识符(捕捉ID)相关联,该唯一捕捉标识符可能例如使用时间和位置信息的组合创建以便对应于与场景105相关联的图像和特点数据被捕捉的时间和地点。传感器***107在一个示例中可能是移动装置,并且该移动装置可能在各种时间捕捉场景105和/或可能捕捉在不同的时间在不同的位置上包括相似或不同对象的不同场景。
一个或多个服务器装置101上的特点分析引擎120表示具有分析数字表示122的作用或职责以便出于未来识别的目的摄取对象102的计算装置。在某些实施例中,特点分析引擎120包括提供本文所述的所需功能的一个或多个硬件和软件模块。例如,特点分析引擎120可以包括计算机***或在其内部实现,该计算机***具有一个或多个网络和/或通过网络(诸如网络115)经由其获得数字表示122的其它接口,诸如接口170。诸如接口170之类的网络接口可以包括有线接口、无线接口或到传感器107的其它类型的连接。数字表示122可以包括文件、串行化数据流(例如,XML、JSON、YAML等)、原始数据或其它形式的数据。
特点分析引擎120还包括被配置或者另外编程为处理数字表示122以生成并存储特征集126的对象识别处理模块124。对象识别处理器124可被配置成实现选定的一个或多个对象识别算法。例如,在某些实施例中,由对象识别处理器124实现的识别算法将图像数据(例如,静止图像、视频帧、视频等)确定为目标。另外或替换地,由对象识别处理器124实现的识别算法将包括例如声音、音频、原始传感器数据或其它类型数据的其它数据模态确定为目标。将图像数据确定为目标的识别算法124的示例可以是:尺度不变特征变换(SIFT)、二进制鲁棒尺度不变关键点(BRISK)、加速鲁棒特征(SURF)、FERNS、DAISY描述符、梯度位置和取向直方图(GLOH)、加速分段测试特征(FAST)、光学字符识别(OCR)、人脸识别或其它类型的图像数据处理,包括但不限于FREAK描述符、HOG描述符、BRIEF描述符、Harris角点描述符、边缘描述符、EOG描述符或TILT描述符。基于非图像的算法(诸如基于声音的算法)可以包括语音识别算法、短语识别算法、音频签名算法、隐马尔可夫模型、动态时间弯曲或其它类型的基于声音的算法。
对象识别处理器124接受数字表示122的至少一部分作为输入,并且然后通过对该数字表示应用对象识别算法来生成特征集126。作为示例,考虑2000年3月6日提交、授予Lowe的题为“Method and Apparatus for Identifying Scale Invariant Features inan Image and Use of Same for Locating an Object in an Image”的美国专利6,711,293中描述的SIFT算法。SIFT被应用于图像数据并以描述符的形式提供特征。可以认为每个描述符表示直方图矢量,其中,直方图中的每个分仓(bin)(即,矢量中的每个值)表示SIFT描述符空间中的维度。由对象识别处理器124应用的每个识别算法将可能具有其自己的特征空间,其结果得到的特征存在于该特征空间中。例如,音频识别算法可能提供具有对应于振幅、相位、频率、时间或其它值的值的特征集。此类值将不同于基于图像的特征或描述符。特征集126中的特征集内的特征可以包括描述、关键点、拐角、签名、包络、边缘、边缘像素、小边缘、人脸特征、来自OCR的文本或其它类型的特征。
如先前所讨论的,特征集126可以包括被认为彼此相似的特征。例如,对象102可能具有引起具有相似结构的许多特征的一个或多个重复图案。相对于基于SIFT的图像处理,相似的SIFT描述符可能在描述符空间中相互接近地存在,从而由于描述符的相似性而提供很少的对象识别能力。然而,通过分析与随时间推移和/或在不同位置处捕捉的相似特征相关联的特点值变化的模式,特点分析引擎能够识别或发现最有可能帮助分辨由图像传感器107a捕捉的对象的身份的场景特点。在某些情况下可能单个场景特点不足以用于分辨模糊。然而,对应于多个特点的矢量可分辨模糊,即使一个特点不能。例如,如下面进一步讨论的,主成分分析(PCA)可能显示出在什么方向上空间变化性是最大的。
特征集分析器123分析与各种捕捉ID相关联的特征集126以识别至少一个相似性特征集128。特征集分析器123根据特征空间中的相似性度量来跨不同的捕捉ID识别相似的特征。可以通过一个或多个技术来编译相似性特征集128。在某些实施例中,可以基于将特征集126中的特征聚类(例如,K均值聚类等)来导出相似性特征集128,其中,每个集群可以被视为相似性度量。其它相似性度量可以包括可与集群质心或其它点的阈值欧几里德距离、马哈拉诺比斯距离、汉明距离或者甚至与集群相关联的特征空间变化。相对于相似特征的集群,集群可能是相当散焦的(即,围绕着集群的质心具有大的变化或分布)。在这种情况下,特点分析引擎120可以围绕着集群应用阈值边界并选择落在该边界内的特征。阈值边界可以是先验定义的,或者可以基于集群特征(例如,质心、变化、密度、集群数目、体积等)而定义。
可以基于经验证据来确定用于特征之间的相似性的阈值,例如通过分析在不同的情况下与对象102相关联的许多特征。例如,如果特征是与玩偶的脸相关联的图像描述符,则特征分析引擎监视与玩偶脸相关联的描述符如何随情况而变。可以使用描述符的变化或测量误差来定义可接受的相似性度量。
在一个实施例中,特点分析引擎120设法发现哪些场景特点可以被应用于特征以出于对象识别的目的而进一步将其相似特征相互区别开。这是由特点分析引擎120利用场景特点130且在一个实施例中对相似特征应用特点以尝试将其相互分辨开而实现的。
特点变化分析器132通过相对于一个或多个场景特点130分析与相似性特征集128中的相似性特征相对应的各种场景特点130的特点变化来生成区别特点134。换言之,相似性特征集128中的每个特征(例如,SIFT或其它描述符)对应于在特定时间针对特定场景105捕捉的特定的一组特点,如下面在图2的上下文中进一步解释的,通过与从其生成对象描述符的数字表示且与在场景处测量的特点值两者相关联的捕捉ID而被链接。如在图3的上下文中进一步图示出的,场景属性空间中的每个维度对应于不同的特点(例如,照明、无线信号值、GPS位置、磁场、重力方向等)。特点变化分析器132确定哪些场景特点最有可能具有辨别能力。例如,可以基于应用主成分分析(PCA)来生成协变性矩阵而导出特点变化。特点变化分析器132可以使用协变性矩阵来导出空间中的变化。特点变化分析器可以应用机器学习算法,并且其在某些实施例中可以使用过去的对象识别结果来更好地识别区别特点。可以由特点变化分析器132实现的特点变化分析方法的示例包括但不限于以下各项:贝叶斯统计;聚类分析;神经网络;支持向量机;学习自动机;随机森林;高斯混合模型;模糊学习;期望值最大化;以及矢量量化。本领域的技术人员将认识到这些技术中的某些出于机器学习的目的依赖于外部接收的训练数据(例如,用已被分析并验证的已知对象识别数据),而其它的将不利用此类引导训练数据而继续执行变化分析。
特点分析引擎120根据由变化分析器132确定的特点变化来选择区别性场景特点134中的一个或多个。例如,特点分析引擎120可以识别由特点分析器132确定的哪些特点变化具有最大值,指示相应场景特点130比其它的场景特点130更好地区别相似性特征集128中的特征。在某些实施例中,特点分析引擎120基于由分析器132确定的哪些特点变化超过阈值值来选择区别性场景特点134。区别性场景特点134的示例可以包括重力矢量、无线信号(例如,接收信号强度等)、电磁场、温度、场深、梯度、物理位置、相对位置、取向、限制、时间或可以表征场景105中的对象102的环境的其它特点。
权值处理器140基于由特点变化分析器132执行的分析而对区别性特点应用权值。最有可能帮助分辨描述符数据(例如,具有较高变化的那些)并识别相应对象的特点被给定较高权值。权值处理器140将加权场景特点值绑定为具有对应于同一捕捉ID的特征(例如,SIFT描述符)的元数据的一部分以形成特征和元数据集136。特点分析引擎120将特征和元数据136存储在对象识别数据库150中以供对象识别***160将来使用。如上文相对于区别性特点的类型所讨论的,应认识到的是连同特征一起存储的元数据可以包括多种数据类型。可以包括在元数据内的信息的示例包括位置数据、上下文数据、时间数据、简档数据、身份数据、制造数据、型号数据、促销数据、保健数据或其它类型的数据。请注意,特征和元数据集136中的元数据可直接地表示加权场景特点数据或者可不这样。在某些实施例中,根据场景特点分析来确定元数据,但并未根据场景特点值来表示。例如,场景权值处理器可能确定场景特点数据中的特定位置与对象的可能种类(例如,衣服,如果衣服部门对应于场景位置数据的话)相关联,并且然后通过元数据来识别那些种类以对共享该元数据的对象识别数据库中的结果进行向上加权。
可以使用许多技术将存储的特征存储在对象识别数据库150中。在某些实施例中,根据一个或多个树形结构来存储特征:例如k-d树或溢出树。树中的每个特征可以进一步包括区别性特点元数据(例如,加权特点)。在其它实施例中,可以根据利用区别性特点元数据的编索引***将特征存储为数据对象。其它实施例允许将特征存储在空间(例如,特征空间、描述符空间、属性空间等)内的特征星座。例如,特征星座可能存在于描述符空间内,其中,星座中的所有特征还包括与区别性场景特点134相关联的特点值。
对象识别***160可以被配置或编程为基于接收到的查询而生成结果集合。在其中***160接收到包括元数据的查询的实施例中,***160可以根据与至少一个区别性场景特点134相关联的元数据(诸如位置元数据)来过滤数据库150中存储的特征。例如,消费者的电话,其可容纳可以分析图像数据并生成许多图像描述符的传感器***。可以将描述符提交给可能体现为k-d树或溢出树的对象识别数据库150,以确定是否存在来自先前摄取对象的已知相似描述符。鉴于可能存在许多假阳性的事实;智能电话在一个实施例中可以提交将描述符与附加元数据(可能是从智能电话的传感器获得的位置或时间信息)绑定的查询。作为响应,***160可以通过过滤具有与智能电话的位置太过不同的位置的特征来从数据库150中的不相关特征过滤相关特征。
包括对象识别数据库150的对象识别***160被呈现为在特点分析引擎120外部的编程装置。然而,替换配置也是可能的。例如,对象识别***160和数据库150可以是存储于经由例如网络服务API来提供其服务的一个或多个服务器101上的特定分析引擎120内的模块。此外,对象识别数据库150还可以包括独立识别模块,其可以被安装在目标装置;蜂窝电话、智能电话、照相机、游戏控制台、医疗装置、信息亭或其它计算装置上。还可以将对象识别数据库150作为库或模块集成在应用程序内,使得应用程序被使得能够识别对象。
应进一步认识到的是对象识别数据库150不一定直接存储特征本身。相反地,在更优选实施例中,对象识别数据库150基于特征和区别性特点信息对内容信息编索引,使得消费由对象识别数据库150提供的服务的装置可以基于现场和感测场景特点中的观察特征而快速地检索内容信息。可以被编索引的示例性内容信息包括网络地址、视频、图像、促销、应用程序、安全密钥、地图信息、电子医疗记录、用于玩具的软件升级、游戏特征或其它类型的内容。
特点分析引擎120被配置成从对象识别***160接收对象识别结果161,并且将其存储以供权值处理器140和/或特点变化分析器132使用。接收到对象识别结果161允许特点变化分析器和/或权值处理器140增强机器学习技术的实现,并且促进特点变化分析器132和权值处理器140的准确度随时间推移的自动改善。
图2是示出由图1的***100的装置执行的处理200的流程图。步骤201从场景(诸如图1的场景105)捕捉图像传感器数据和特点传感器数据。步骤201还使图像传感器数据和特点传感器数据与唯一捕捉ID相关联,使得对象(诸如对象102)的导出图像描述符信息可以被特点分析引擎120正确地与同时地从场景105捕捉的相应特点信息相关。
步骤202在特点分析引擎120处接收图像数据并将其存储为数字表示122。步骤203在特点分析引擎120处接收并存储场景特点数据130。步骤204对图像的数字表示应用一个或多个对象识别算法以导出适当的特征集(例如,SIFT描述符或由上面在图1的上下文中参考的对象识别算法生成的其它描述符)。在所示实施例中,描述符是由特点分析引擎120从图像数据生成的。然而,在替换实施例中,可以在与图像传感器相关联的客户端侧装置处生成描述符并通过网络115发送到特点分析引擎120。步骤214然后确定特点分析是否将局限于与相似特征相关联的特点或者是否将分析与所有特征相关联的特点。如果步骤214的结果是否,则步骤214检索与所有场景捕捉ID相关联的特点。如果步骤215的结果为是,则步骤205分析特征以找到包括与不同捕捉ID相关联的相似特征的相似性特征集。步骤206针对每个捕捉ID检索相应的场景特点数据值。处理200从213或206(取决于步骤214的结果)前进至步骤207。步骤207选择用于分析特点变化以识别区别性特点的一个或多个分析技术。如上文参考图1所讨论的,可以将各种技术用于变化分析。步骤208确定选定分析技术是否利用对象识别结果反馈。如果是,则步骤210基于沿着属性空间的各种维度的特点值变化来执行变化分析,并且使用来自从对象识别***160接收到的过去对象识别的接收结果来识别区别性特点。如果步骤208的结果为否,则步骤209仅连同提供给***的任何训练数据一起基于关联特点值来执行变化分析。请注意,在任一种情况下,在特定实施例中都可以使用机器学习技术。本发明的典型的机器学习实施例将依赖于初始训练数据,如本领域的技术人员将认识到的。步骤211基于(步骤209或步骤210的)变化分析的结果且进一步鉴于从对象识别***160接收到的对象识别结果来对特点应用权值。步骤212将加权特点信息作为绑定到所捕捉图像的导出特征(例如,SIFT或其它描述符)的元数据的一部分连同相关特点值(这可以通过与捕捉ID的关联来确定)一起发送。请注意,针对对象识别发送的特征在优选实施例中可包括比被选作图1的特征相似性集合128的一部分的特征更多的特征。在某些实施例中,特征相似性集合128中的某些或所有特征与不同的捕捉ID相关联,并被用于预期将对从单个图像(与单个捕捉ID相关联)分辨描述符有帮助的区别性特点。换言之,与在特征或元数据集合136中收集的元数据绑定的特征对于针对特定对象识别查询而提交的特定数据集而言一般地将与同一捕捉ID相关联,并且可包括与该捕捉ID相关联的描述符,其可能也已被选作相似性特征集128的一部分或者可能不这样。
图3A-图3C提供了特点分析引擎128如何可以发现哪些场景特点帮助打破相似特征的对称性或相似性的简化图形描绘。
图3a描绘了示例性特征空间310。应用于数字图像表示数据的对象识别算法一般地将结果得到的描述符值(特征)表示为多维值,即矢量。根据算法,可以在具有任何实际维数(例如、超过两个维度)的特征空间中表示这些描述符。然而,为了说明的清楚和容易,图3A示出特征空间310的仅两个维度。具体地,如所示,特征空间310包括维度313N和维度313A。矢量值301表示特征空间310中的不同描述符值(具有相应的313N和313A维度值)。特征集分析器123发现相似性特征集315A为具有相互接近且因此被认为相似的特征值301。应认识到的是不要求相似性特征集315A中的特征是相同的。相反,其相对于其对象分辨能力而言是彼此相似的。此外,优选的是相似性集合315A中的特征功值中的至少某些与不同的捕捉ID相关联,使得至少某些相应场景特点值的显著变化更有可能。
除通过捕捉ID将特点绑定到时间和场景位置之外,各种其它有用绑定是可能的。例如,可以将描述符(例如,SIFT描述符)绑定到在图像中具有坐标的关键点。可以将描述符(例如,SIFT描述符)绑定到具有来自深度传感器的深度读数的关键点或者具有来自立体重构的深度读数的关键点。并且可能将各种特点绑定到不同的传感器。例如,可以用传感器读数和不同绑定关系的各种组合来显示绝对位置。例如,可以将GPS位置绑定到磁强计读数、Wi-Fi接收信号强度或蓝牙接收信号强度。磁强计读数的绑定可以是到GPS位置、Wi-Fi接收信号强度或蓝牙接收信号强度。Wi-Fi接收信号强度的绑定可以是到GPS位置、磁强计读数或蓝牙接收信号强度。蓝牙接收信号强度的绑定可以是到GPS位置、磁强计读数或Wi-Fi接收信号强度。
图3B示出示例性场景属性(特点)空间320。为了说明的清楚和容易,仅示出了场景属性空间320的两个维度。然而,针对相关场景属性空间可存在任何实际的维数。场景属性空间320中的维数与特征空间310中的维数无关。在场景属性空间320中,每个维度对应于不同的特点。特点323N对应于第一维度,并且特点323A对应于第二维度。这些可以是连同与图3A的相似性特征集315A中的特征相对应的图像数据一起捕捉的任何潜在有用场景特点。仅举一个例子,特点323N可能是WiFi信号特点,并且特点323A可能是照明值特点。替换地,特点323N可能是从诸如WiFi信号、GPS信息、蓝牙信号和/或磁场信息之类的一组特点导出的位置特点。
在某些实施例中,特点分析引擎将场景特点信息绑定到相似性特征集315A的相似特征以形成场景属性空间320中的相似性特征集315B。在一个实施例中,使用与对应于相似性特征集315中的描述符301的捕捉图像相关联的捕捉ID来定位特点空间320中的值302。在空间320中绘出与那些捕捉ID相关联的特点值。在本示例中,存在遍布于空间320的五个相似特征。然而,可以存在任何数目的特征。特点分析引擎然后可以在场景属性空间320内基于逐个特点来确定特征的散布或变化。请注意,存在分别地对应于特点323A和223N的两个变化。特点323N具有变化325N。特点323A具有特点变化325A。
特点变化325A和325N可以是通过如前所述的各种技术生成的。例如,可以通过将属性空间320中的特征分布拟合到高斯分布并计算分布的宽度来确定变化。还可以利用其它分布,包括泊松分布、二项式分布、对数正态分布、韦伯分布或其它分布方式。用以确定相对于特点的变化或散布的另一方法是确定如所示的沿着特点的散布范围(例如,特点A2-特点A1、特点N2-特点N1)。在其中相似特征的分布是双模的情形中,可设想可以在仍提供对象分辨能力的同时存在相对于特点的超过一个变化。可以用根据特点、标准偏差或其它度量的单位来测量特点变化325A和325N。
在图3B的示例中,特点变化325N明显大于特点变化325A。因此,预期特点323N将具有比323A更多的分辨能力以便成功地识别与图3A的相似性特征集315A相关联的对象。在一个示例中,图1的权值处理器模块140在将元数据绑定到与对应于图3A的相似性特征集315A的描述的图像相关联的特征集时将因此是超过权值323A的权值特点323N。
图3C示出了沿着场景属性空间320的两个不同维度的相应值的图。示出了沿着维度323D和323E绘出的值302,其表示与图3B中所示的那些不同的两个场景特点。相似性特征集315C对应于用于场景特点323D和323E的值,其进而对应于与图3A的相似性特征集315A中绘出的描述符相关联的相同捕捉ID。
在图3C的示例中,特点变化325D在程度上非常类似于特点变化325E。因此,单独地着眼于这些变化并未提供针对场景特点323E或323D中的哪些将出于创建用于图1的特征和元数据集136的相应元数据的目的而加权较高的有力基础。然而,还可以使特点彼此相关,使得可以使相似性特征集315C中的特征相对于一个特点的变化与一个或多个其它特点的变化相关。如所示,看起来在特点323D与特点323E之间存在强相关。如果特征针对特点323D具有高值,则可能该特征针对特点323E将具有高值。特点分析引擎可以通过执行主成分分析来发现此类相关,该主成分分析将提供N×N协变性矩阵(即,N是场景属性空间220中的维数)。协变性矩阵的特征值指示哪些相关(即,特征矢量)提供最大变化。在所示的示例中,特点变化327ED提供比特点变化327DE更大的分辨能力。因此,认为本发明主题将包括发现场景特点之间的哪些相关帮助区别对象的特点分析引擎。例如,具有强协变性的两个特点比并未显示出与任何其它特点的强协变性的特点更有可能帮助区别对象。因此,在某些实施例中,协变特点被选择区别特点,并且在创建元数据时可比几乎没有显示出协变性的特点更重地加权。
特别有趣地,可以认为相似性特征集315C内的特征将在场景属性空间220内形成特征的星座,其中,该星座可以由特征和至少区别性场景特点323A至特点323N构成。可以将星座中的每个特征与指示特征相对于区别性特点的布置或分布的特点元数据绑定。特点元数据可以包括每个特征的特点值、到同一星座中的其它特征的链接、描述用于星座的特点值的函数、到特点信息的指针或其它类型的特点元数据。还可以将星座信息存储在对象识别数据库中以帮助分辨对象。
在并不意图以任何方式限制本发明的情况下,以下具体示例举例说明如何可能在百货商店环境中应用本发明的实施例以在分辨相似描述符时利用场景特点信息以便改善对象识别。在以下示例中,可以用与提交的描述符相关联的元数据对预期项目的种类进行加权,此类元数据是由图1的权值处理器140或者由在对象识别***160中实现的处理添加的。百货商店中的购物者可能不太可能在器械区中看衣服。因此,可以使用诸如GPS、蓝牙、WiFi之类的分辨位置的场景特点来在传感器数据指示在器械区中捕捉到相应图像时将对应于器械的元数据项目向上加权为对象类别,并且将诸如衣服之类的其它项目向下加权。
经由另一示例,书桌将有可能靠其支腿站立。因此,应使用来自加速度计的重力矢量对用其支腿站立的书桌的图像进行向上加权,并且对不这样的书桌候选进行向下加权。
公开主题在现场中的装置消费来自对象识别数据库的对象识别信息时产生有趣的特征。一个示例包括相对于用于数据库中的相似特征的区别性特点值而识别与现场中的观察特征相关联的感测场景特点信息之间的差异。考虑其中对象识别数据库中的特征包括温度特点的情形,对于一组滑雪板而言,可能该特点具有低值或者表示低温。在现场,用户可能捕捉示出滑雪板的海报的图像,但是本地温度是温暖的。用户的蜂窝电话可以检测到本地场景特点(例如,其是温暖的)与数据库中的摄取场景特点(即,其是或者应该是冷的)之间的差别。该差异可以被识别引擎用作所捕捉图像是海报而不是实物的图像的证据。这种方法允许输送与滑雪板的海报版本(例如,促销、旅行信息等)而不是实际滑雪板相关联的适当内容。
图4示出了根据本发明的实施例的可用来执行包含在计算机程序产品4060中的指令代码的计算机***4000(其中的一个或多个可提供图1的***100的组件)的示例。计算机程序产品4060包括电子可读介质中的可执行代码,其可命令诸如计算机***4000之类的一个或多个计算机执行实现由在本文中提及的实施例的示例性方法步骤的处理。该电子可读介质可以是以电子方式存储信息且可被在本地或远程地(例如经由网络连接)访问的任何非临时介质。该介质可包括多个在地理上分散的介质,每个被配置成在不同的位置处和/或在不同的时间存储可执行代码的不同部分。电子可读介质中的可执行指令代码命令所示计算机***4000执行本文所述的各种示例性任务。用于命令执行本文所述的任务的可执行代码通常将是用软件实现的。然而,本领域的技术人员将认识到的是在不脱离本发明的情况下计算机或其它电子装置可能利用用硬件实现的代码来执行许多或全部的已识别任务。本领域的技术人员将理解的是可发现实现在本发明的精神和范围内的示例性方法的对可执行代码的许多变型。
包含在计算机程序产品4060中的代码或代码的拷贝可常驻于被通信耦合到***4000的一个或多个存储持久性介质(并未单独示出)中以实现在持久性存储装置4070和/或存储器4010中的加载和存储以便由处理器4020执行。计算机***4000还包括I/O子***4030和***装置4040。I/O子***4030、***装置4040、处理器4020、存储器4010以及持久性存储装置4060被经由总线4050耦接。类似于可能包含计算机程序产品4060的持久性存储装置4070和任何其它持久性储存器,存储器4010是非临时介质(即使被实现为典型的易失性计算机存储器装置)。此外,本领域的技术人员将认识到除存储用于执行本文所述处理的计算机程序产品4060之外,存储器4010和/或持久性存储装置4060可被配置成存储在本文中提及和举例说明的各种数据元素。
本领域的技术人员将认识到计算机***4000仅仅举例说明其中可实现根据本发明的实施例的计算机程序产品的***的一个示例。为了叙述替换实施例的仅一个示例,可将包含在根据本发明的实施例的计算机程序产品中的指令的执行分布在多个计算机上,诸如在分布式计算网络的计算机上。
本发明不一定局限于在本文中提出的任何特定实施例。那些实施例仅仅意图用于举例说明本发明的原理的操作。然而,本发明本身仅仅受到根据在本文中提及的底层发明原理和所附权利要求的最宽泛精神和范围的限制。
对于本领域的技术人员而言应显而易见的是在不脱离本文中的发明概念的情况下可以有除所述那些之外的更多修改。因此本发明主题并不受到除在所附权利要求的精神中之外的限制。此外,在解释本说明书和权利要求两者时,应以根据上下文的最宽泛可能方式来解释所有术语。特别地,应将术语“包括”和“包含”解释为以非排他性方式指代元件、部件或步骤,指示提及的元件、组件或步骤可与并未明确提及的其它元件、部件或步骤一起存在或被利用或被组合。在说明书权利要求提及选自由A、B、C...和N组成的组的某些东西中的至少一个的情况下,应将原文解释为仅要求来自该组的一个元素,而不是A加N或B加N等。
Claims (42)
1.一种对象识别特点识别***,包括:
计算机化场景特点数据库,其存储具有表示场景的值的多个场景特点,所述场景特点存在于场景属性空间内;以及
特点分析引擎,其被耦接到所述场景特点数据库,并被配置成:
通过对场景中的对象的数字表示应用识别算法来导出多个特征,所述多个特征存在于特征空间中;
针对至少一个相似性特征集内的相似特征且相对于场景特点在场景属性空间中生成特点变化;
根据所述特点变化而从场景特点中选择至少一个区别性场景特点,其中,所述至少一个区别性场景特点区别所述至少一个相似性特征集内的特征;以及
将相似性特征集中的每个特征连同包括所述至少一个区别性场景特点的元数据一起存储在对象识别数据库中。
2.根据权利要求1所述的***,其中,所述特点分析引擎被进一步配置成编译至少一个相似性特征集,其包括根据特征空间内的相似性度量而被认为相似的所述多个特征的特征。
3.根据权利要求1所述的***,其中,所述场景特点中的至少某些将受控环境背景表示为场景。
4.根据权利要求3所述的***,其中,所述场景特点中的至少某些包括受控环境背景的可调整参数。
5.根据权利要求1所述的***,其中,所述场景特点中的至少某些表示场景的环境传感器数据。
6.根据权利要求3所述的***,其中,环境传感器数据表示外部场景传感器数据。
7.根据权利要求1所述的***,其中,所述数字表示包括以下数据模态中的至少一个:图像数据、视频数据、音频数据、3D数据、传感器数据、位置数据、时间数据、生物测量数据以及游戏数据。
8.根据权利要求1所述的***,其中,所述对象的数字表示包括对象类别的表示。
9.根据权利要求1所述的***,其中,所述对象的数字表示包括以下各项中的至少一个的表示:玩具、运载工具、手工艺品、动物、植物、人类、器械、装置、文档、金融证券、游戏组件、海报、报纸、期刊以及屏幕上内容。
10.根据权利要求1所述的***,其中,所述多个特征包括以下特征中的至少一个:描述符、关键点、签名以及包络。
11.根据权利要求1所述的***,其中,所述识别算法包括图像处理算法。
12.根据权利要求11所述的***,其中,所述图像处理算法包括以下各项中的至少一个:SIFT、BRISK、SURF、FERNS、DAISY、GLOH、FAST、OCR,FREAK、HOG BRIEF、Harris角点检测器、EOG、TILT和人脸识别。
13.根据权利要求1所述的***,其中,所述识别算法包括声音处理算法。
14.根据权利要求2所述的***,其中,所述相似性度量包括以下各项中的至少一个:欧几里德距离、马哈拉诺比斯距离、汉明距离和特征空间变化。
15.根据权利要求2所述的***,其中,所述特点分析引擎被进一步配置成编译至少一个相似性特征集,其包括相对于相似性度量而言落在阈值边界内的特征。
16.根据权利要求1所述的***,其中,所述特点变化是相对于场景属性空间的变化。
17.根据权利要求1所述的***,其中,所述特点分析引擎被进一步配置成基于具有大于阈值的变化的场景特点而从场景特点中选择至少一个区别性场景特点。
18.根据权利要求1所述的***,其中,所述特点分析引擎被进一步配置成从所述至少一个相似性特征集和区别性场景特点构造至少一个特征群。
19.根据权利要求18所述的***,其中,所述至少一个特征群是区别性场景特点所特定的。
20.根据权利要求18所述的***,其中,所述至少一个特征群包括多个群,其中,每个群包括表示一个或多个区别性场景特点的特点元数据。
21.根据权利要求1所述的***,还包括对象识别数据库。
22.根据权利要求18所述的***,其中,所述对象识别数据库被配置成根据包括至少一个区别性场景特点的元数据来过滤存储的特征。
23.根据权利要求18所述的***,其中,所述对象识别数据库被配置成基于至少一个区别性场景特点而返回结果集合作为特征群。
24.根据权利要求1所述的***,其中,所述元数据除所述至少一个区别性场景特点之外还包括以下各项中的至少一个:位置数据、上下文数据、时间数据、简档数据、身份数据、制造数据、型号数据、促销数据以及保健数据。
25.根据权利要求1所述的***,其中,所述区别性场景特点包括重力。
26.根据权利要求1所述的***,其中,所述区别性场景特点包括以下各项中的至少一个:无线信号、电磁场、温度、梯度、物理位置、相对位置、取向、限制以及时间。
27.一种用于增强场景捕捉中的对象的识别的计算机化对象识别场景特点分析***,所述场景捕捉包括(i)由图像传感器进行的场景的图像捕捉的数字表示,和(ii)由一个或多个场景特点传感器在图像捕捉时捕捉的一个或多个场景特点值;所述***包括:
包括一个或多个计算机的场景变化分析器,其被配置成:
计算场景特点变化,所述场景特点变化对应于跨多个场景捕捉的场景特点值的变化;以及
基于在阈值值以上的场景特点变化来确定区别性场景特点;以及
包括一个或多个计算机的权值处理器,其被配置成针对多个场景捕捉中的每一个:
确定区分场景特点的相对权重;以及
利用所述相对权重生成元数据;所述元数据包括至少一个区别性场景特点;
其中,所述***被配置成使对应于特定场景捕捉的生成元数据与从对应于特定场景捕捉的数字表示导出的特征相关联。
28.根据权利要求27所述的***,其中,所述场景变化分析器被配置成将跨多个场景捕捉具有比第二特点更大变化的第一特点识别为区别性特点。
29.根据权利要求27所述的***,其中,所述场景变化分析器被配置成将跨多个场景捕捉具有强协变性的两个或更多特点识别为区别性特点,强协变性被定义为是高于阈值值的协变性。
30.根据权利要求27所述的***,还包括:一个或多个计算机的特征集分析器,其被配置成从已从多个图像捕捉的数字表示导出的多个特征中识别相似性特征集,所述多个特征被在对应于识别算法的特征空间中表示,并且所述相似性特征集是基于相似性度量而选定的。
31.根据权利要求30所述的***,其中,所述相似性度量包括以下各项中的至少一个:欧几里德距离、马哈拉诺比斯距离、汉明距离和特征空间变化。
32.根据权利要求30所述的***,其中,所述识别算法是图像处理算法,其包括以下各项中的至少一个:SIFT、BRISK、SURF、FERNS、DAISY、GLOH、FAST、OCR、FREAK、HOG BRIEF、Harris角点检测器、EOG、TILT和人脸识别。
33.根据权利要求30所述的***,被配置成使得所述变化分析器仅分析与对应于从其导出相似性特征集中的特征的数字表示的场景捕捉相关联的场景特点。
34.根据权利要求27所述的***,被耦接为将生成的元数据和关联特征传送到对象识别数据库。
35.一种嵌入包括指令的非临时计算机可读介质中的计算机程序存储介质,所述指令可被计算机处理器执行以执行对象识别场景特点分析以增强场景捕捉中的对象的识别,所述场景捕捉包括(i)由图像传感器进行的场景的图像捕捉的数字表示,和(ii)由一个或多个场景特点传感器在图像捕捉时捕捉的一个或多个场景特点值;所述指令可被计算机处理器执行以执行处理,包括:
计算场景特点变化,所述场景特点变化对应于跨多个场景捕捉的场景特点值的变化;
基于在阈值值以上的场景特点变化来识别区别性场景特点;
确定区分场景特点的相对权重;
利用所述相对权重生成元数据;所述元数据包括至少一个区别性场景特点;以及
使对应于特定场景捕捉的生成元数据与从对应于特定场景捕捉的数字表示导出的特征相关联。
36.权利要求35所述的计算机程序存储介质,其中,所述指令可被处理器执行以将跨多个场景捕捉具有比第二特点更大变化的第一特点识别为区别性特点。
37.权利要求35所述的计算机程序存储介质,其中,所述指令可被处理器执行以跨多个场景捕捉具有强协变性的两个或更多特点识别为区别性特点,强协变性被定义为是高于阈值值的协变性。
38.权利要求35所述的计算机程序存储介质,其中,所述指令可被处理器执行以从已从多个图像捕捉的数字表示导出的多个特征中识别相似性特征集,所述多个特征被在对应于识别算法的特征空间中表示,并且所述相似性特征集是基于相似性度量而选定的。
39.权利要求38所述的计算机程序存储介质,其中,所述相似性度量包括以下各项中的至少一个:欧几里德距离、马哈拉诺比斯距离、汉明距离和特征空间变化。
40.权利要求38所述的计算机程序存储介质,其中,所述识别算法是图像处理算法,其包括以下各项中的至少一个:SIFT、BRISK、SURF、FERNS、DAISY、GLOH、FAST、OCR、FREAK、HOGBRIEF、Harris角点检测器、EOG、TILT和人脸识别。
41.权利要求38所述的计算机程序存储介质,其中,所述指令可执行使得仅分析用于与对应于从其导出相似性特征集中的特征的数字表示的场景捕捉相关联的场景特点的变化。
42.权利要求35所述的计算机程序存储介质,还包括用于将生成的元数据和关联特征传送到对象识别数据库的指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461946650P | 2014-02-28 | 2014-02-28 | |
US61/946,650 | 2014-02-28 | ||
PCT/US2015/018369 WO2015131206A1 (en) | 2014-02-28 | 2015-03-02 | Object recognition trait analysis systems and methods |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106575365A CN106575365A (zh) | 2017-04-19 |
CN106575365B true CN106575365B (zh) | 2020-09-22 |
Family
ID=54009717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580023387.5A Active CN106575365B (zh) | 2014-02-28 | 2015-03-02 | 对象识别特点分析***和方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9633042B2 (zh) |
CN (1) | CN106575365B (zh) |
WO (1) | WO2015131206A1 (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015131206A1 (en) | 2014-02-28 | 2015-09-03 | Nant Vision, Inc. | Object recognition trait analysis systems and methods |
JP6532190B2 (ja) * | 2014-03-26 | 2019-06-19 | キヤノン株式会社 | 画像検索装置、画像検索方法 |
CN107148632B (zh) | 2014-04-24 | 2020-10-27 | 河谷控股Ip有限责任公司 | 用于基于图像的目标识别的稳健特征识别 |
KR102284750B1 (ko) * | 2014-12-15 | 2021-08-03 | 삼성전자주식회사 | 사용자 단말 장치 및 그의 대상 인식 방법 |
US10432842B2 (en) * | 2015-04-06 | 2019-10-01 | The Texas A&M University System | Fusion of inertial and depth sensors for movement measurements and recognition |
AU2017229500A1 (en) | 2016-03-08 | 2018-08-30 | Nant Holdings Ip, Llc | Image feature combination for image-based object recognition |
US10621497B2 (en) * | 2016-08-19 | 2020-04-14 | International Business Machines Corporation | Iterative and targeted feature selection |
WO2018052991A1 (en) | 2016-09-14 | 2018-03-22 | Vbc Holdings Llc | Systems, apparatus and methods for controlling a movement of a cell culture to optimize cell growth |
US10212157B2 (en) | 2016-11-16 | 2019-02-19 | Bank Of America Corporation | Facilitating digital data transfers using augmented reality display devices |
US10158634B2 (en) | 2016-11-16 | 2018-12-18 | Bank Of America Corporation | Remote document execution and network transfer using augmented reality display devices |
US10943229B2 (en) | 2016-11-29 | 2021-03-09 | Bank Of America Corporation | Augmented reality headset and digital wallet |
US10339583B2 (en) | 2016-11-30 | 2019-07-02 | Bank Of America Corporation | Object recognition and analysis using augmented reality user devices |
US10600111B2 (en) | 2016-11-30 | 2020-03-24 | Bank Of America Corporation | Geolocation notifications using augmented reality user devices |
US10685386B2 (en) | 2016-11-30 | 2020-06-16 | Bank Of America Corporation | Virtual assessments using augmented reality user devices |
US10607230B2 (en) | 2016-12-02 | 2020-03-31 | Bank Of America Corporation | Augmented reality dynamic authentication for electronic transactions |
US10481862B2 (en) | 2016-12-02 | 2019-11-19 | Bank Of America Corporation | Facilitating network security analysis using virtual reality display devices |
US10311223B2 (en) | 2016-12-02 | 2019-06-04 | Bank Of America Corporation | Virtual reality dynamic authentication |
US10586220B2 (en) | 2016-12-02 | 2020-03-10 | Bank Of America Corporation | Augmented reality dynamic authentication |
US10109095B2 (en) | 2016-12-08 | 2018-10-23 | Bank Of America Corporation | Facilitating dynamic across-network location determination using augmented reality display devices |
US10109096B2 (en) | 2016-12-08 | 2018-10-23 | Bank Of America Corporation | Facilitating dynamic across-network location determination using augmented reality display devices |
US10217375B2 (en) | 2016-12-13 | 2019-02-26 | Bank Of America Corporation | Virtual behavior training using augmented reality user devices |
US10210767B2 (en) | 2016-12-13 | 2019-02-19 | Bank Of America Corporation | Real world gamification using augmented reality user devices |
KR102585234B1 (ko) | 2017-01-19 | 2023-10-06 | 삼성전자주식회사 | 전자 기기를 위한 비전 인텔리전스 관리 |
US10909371B2 (en) | 2017-01-19 | 2021-02-02 | Samsung Electronics Co., Ltd. | System and method for contextual driven intelligence |
WO2018143486A1 (ko) * | 2017-01-31 | 2018-08-09 | (주)한국플랫폼서비스기술 | 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법 |
US20180341271A1 (en) * | 2017-05-29 | 2018-11-29 | Ants Technology (Hk) Limited | Environment exploration system and method |
US10434451B2 (en) | 2017-07-26 | 2019-10-08 | Nant Holdings Ip, Llc | Apparatus and method of harvesting airborne moisture |
JP2019079084A (ja) * | 2017-10-19 | 2019-05-23 | 株式会社大塚商会 | 画像解析システム |
KR102383134B1 (ko) * | 2017-11-03 | 2022-04-06 | 삼성전자주식회사 | 우선 순위에 기반하여 이미지를 처리하는 전자 장치 및 그 동작 방법 |
EP3564846A1 (en) * | 2018-04-30 | 2019-11-06 | Merck Patent GmbH | Methods and systems for automatic object recognition and authentication |
US10661982B2 (en) * | 2018-07-20 | 2020-05-26 | Spacemaptech, Llc | Systems and processes for space management of three dimensional containers |
US11164037B2 (en) * | 2018-08-01 | 2021-11-02 | International Business Machines Corporation | Object instance ambiguity resolution |
CN109145901B (zh) * | 2018-08-14 | 2023-04-21 | 腾讯科技(深圳)有限公司 | 物品识别方法、装置、计算机可读存储介质和计算机设备 |
CN109614978A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN112711671A (zh) * | 2020-12-29 | 2021-04-27 | 珠海新天地科技有限公司 | 一种快速识别物体的方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6894639B1 (en) | 1991-12-18 | 2005-05-17 | Raytheon Company | Generalized hebbian learning for principal component analysis and automatic target recognition, systems and method |
US6711293B1 (en) | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
US6774917B1 (en) * | 1999-03-11 | 2004-08-10 | Fuji Xerox Co., Ltd. | Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video |
US6894693B1 (en) | 2001-02-09 | 2005-05-17 | Vicarious Visions Inc. | Management of limited resources in a graphics system |
US7505604B2 (en) | 2002-05-20 | 2009-03-17 | Simmonds Precision Prodcuts, Inc. | Method for detection and recognition of fog presence within an aircraft compartment using video images |
US8145677B2 (en) | 2007-03-27 | 2012-03-27 | Faleh Jassem Al-Shameri | Automated generation of metadata for mining image and text data |
US8305575B1 (en) | 2008-06-23 | 2012-11-06 | Spectral Sciences, Inc. | Adaptive spectral sensor and methods using same |
US8768313B2 (en) * | 2009-08-17 | 2014-07-01 | Digimarc Corporation | Methods and systems for image or audio recognition processing |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US8175617B2 (en) | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US8570319B2 (en) | 2010-01-19 | 2013-10-29 | Disney Enterprises, Inc. | Perceptually-based compensation of unintended light pollution of images for projection display systems |
WO2011152893A1 (en) | 2010-02-10 | 2011-12-08 | California Institute Of Technology | Methods and systems for generating saliency models through linear and/or nonlinear integration |
US8866845B2 (en) * | 2010-03-10 | 2014-10-21 | Empire Technology Development Llc | Robust object recognition by dynamic modeling in augmented reality |
US8660355B2 (en) | 2010-03-19 | 2014-02-25 | Digimarc Corporation | Methods and systems for determining image processing operations relevant to particular imagery |
US8581905B2 (en) | 2010-04-08 | 2013-11-12 | Disney Enterprises, Inc. | Interactive three dimensional displays on handheld devices |
US8429153B2 (en) | 2010-06-25 | 2013-04-23 | The United States Of America As Represented By The Secretary Of The Army | Method and apparatus for classifying known specimens and media using spectral properties and identifying unknown specimens and media |
US8625902B2 (en) * | 2010-07-30 | 2014-01-07 | Qualcomm Incorporated | Object recognition using incremental feature extraction |
KR101395094B1 (ko) * | 2010-09-29 | 2014-05-16 | 안동대학교 산학협력단 | 개체 검출 방법 및 시스템 |
US8306257B2 (en) | 2011-01-31 | 2012-11-06 | Seiko Epson Corporation | Hierarchical tree AAM |
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、***及方法 |
US8655029B2 (en) | 2012-04-10 | 2014-02-18 | Seiko Epson Corporation | Hash-based face recognition system |
EP2875471B1 (en) * | 2012-07-23 | 2021-10-27 | Apple Inc. | Method of providing image feature descriptors |
WO2015131206A1 (en) | 2014-02-28 | 2015-09-03 | Nant Vision, Inc. | Object recognition trait analysis systems and methods |
-
2015
- 2015-03-02 WO PCT/US2015/018369 patent/WO2015131206A1/en active Application Filing
- 2015-03-02 CN CN201580023387.5A patent/CN106575365B/zh active Active
- 2015-03-02 US US14/636,161 patent/US9633042B2/en active Active
-
2017
- 2017-03-16 US US15/461,197 patent/US10013612B2/en active Active
Non-Patent Citations (2)
Title |
---|
融合空间信息LDA的视觉对象识别研究;李阳等;《智能计算机与应用》;20130831;第3卷(第4期);29-33,38 * |
面向对象的家庭全息地图表示与构建;孔令富等;《计算机工程与设计》;20130131;第34卷(第1期);353-359 * |
Also Published As
Publication number | Publication date |
---|---|
US10013612B2 (en) | 2018-07-03 |
US9633042B2 (en) | 2017-04-25 |
US20150254510A1 (en) | 2015-09-10 |
WO2015131206A1 (en) | 2015-09-03 |
CN106575365A (zh) | 2017-04-19 |
US20170200049A1 (en) | 2017-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106575365B (zh) | 对象识别特点分析***和方法 | |
CN109074369B (zh) | 用于基于图像的对象识别的图像特征组合 | |
Khan et al. | Painting-91: a large scale database for computational painting categorization | |
Shen et al. | Dynamic hand gesture recognition: An exemplar-based approach from motion divergence fields | |
Wang et al. | Dense trajectories and motion boundary descriptors for action recognition | |
US9911066B2 (en) | Classification system for similar objects from digital images | |
Guan et al. | On-device mobile landmark recognition using binarized descriptor with multifeature fusion | |
Savelonas et al. | Fisher encoding of differential fast point feature histograms for partial 3D object retrieval | |
Boubou et al. | Classifying actions based on histogram of oriented velocity vectors | |
Bąk et al. | Re-identification by covariance descriptors | |
Chen et al. | Image retrieval based on image-to-class similarity | |
Luevano et al. | A study on the performance of unconstrained very low resolution face recognition: Analyzing current trends and new research directions | |
Mekhalfi et al. | Toward an assisted indoor scene perception for blind people with image multilabeling strategies | |
Veinidis et al. | Unsupervised human action retrieval using salient points in 3D mesh sequences | |
Liu et al. | A new patch selection method based on parsing and saliency detection for person re-identification | |
Bhattacharya et al. | Qdf: A face database with varying quality | |
Terzić et al. | BIMP: A real-time biological model of multi-scale keypoint detection in V1 | |
Nurzynska et al. | Evaluation of Keypoint Descriptors for Flight Simulator Cockpit Elements: WrightBroS Database | |
Saleiro et al. | BINK: Biological binary keypoint descriptor | |
Geng et al. | CBDF: compressed binary discriminative feature | |
Voronin et al. | Action recognition using the 3D dense microblock difference | |
Razzaghi et al. | A new invariant descriptor for action recognition based on spherical harmonics | |
JP6132996B1 (ja) | 画像処理装置,画像処理方法,画像処理プログラム | |
Mukherjee | Human action recognition using dominant pose duplet | |
JP2014056415A (ja) | 画像照合システム、画像照合方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |