CN112784822A - 对象识别方法、装置、电子设备、存储介质及程序产品 - Google Patents
对象识别方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN112784822A CN112784822A CN202110251305.XA CN202110251305A CN112784822A CN 112784822 A CN112784822 A CN 112784822A CN 202110251305 A CN202110251305 A CN 202110251305A CN 112784822 A CN112784822 A CN 112784822A
- Authority
- CN
- China
- Prior art keywords
- preset
- preset feature
- target object
- feature
- implementation manner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000000463 material Substances 0.000 claims abstract description 154
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 235000012054 meals Nutrition 0.000 abstract description 30
- 238000007781 pre-processing Methods 0.000 description 20
- 238000005286 illumination Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 241000227653 Lycopersicon Species 0.000 description 8
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 8
- 235000013601 eggs Nutrition 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 239000002994 raw material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 235000001270 Allium sibiricum Nutrition 0.000 description 2
- 235000005747 Carum carvi Nutrition 0.000 description 2
- 240000000467 Carum carvi Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- WHGYBXFWUBPSRW-FOUAGVGXSA-N beta-cyclodextrin Chemical compound OC[C@H]([C@H]([C@@H]([C@H]1O)O)O[C@H]2O[C@@H]([C@@H](O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O3)[C@H](O)[C@H]2O)CO)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@@H]3O[C@@H]1CO WHGYBXFWUBPSRW-FOUAGVGXSA-N 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了一种对象识别方法、装置、电子设备、存储介质及程序产品,所述对象识别方法包括:获取目标对象素材;提取所述目标对象素材的第一预设特征;计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。该技术方案对于每一新增类别无需重新进行训练,因此能够适用于菜品等餐食的外观难以统一,且经常更新的应用场景,实现快速、有效、稳定的餐食分类与识别。
Description
技术领域
本公开涉及数据识别技术领域,具体涉及一种对象识别方法、装置、电子设备、存储介质及程序产品。
背景技术
随着数据技术和深度学习技术的发展,基于人工智能的对象分类与识别的应用越来越广泛。但现有技术中并未实现对菜品等餐食的分类与识别,即使直接使用现有对象分类与识别方法对于餐食进行分类与识别,由于菜品等餐食的外观难以统一,且经常更新,同时现有对象分类与识别方法对于每一新增类别均需要重新进行训练,因此难以实现快速、有效、稳定的餐食分类与识别。
发明内容
本公开实施例提供一种对象识别方法、装置、电子设备、存储介质及程序产品。
第一方面,本公开实施例中提供了一种对象识别方法。
具体的,所述对象识别方法,包括:
获取目标对象素材;
提取所述目标对象素材的第一预设特征;
计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
结合第一方面,本公开在第一方面的第一种实现方式中,还包括:
确定预设特征内容及数量;
所述提取所述目标对象素材的第一预设特征,包括:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
结合第一方面和第一方面的第一种实现方式,本公开实施例在第一方面的第二种实现方式中,还包括:
生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开实施例在第一方面的第三种实现方式中,所述生成预设特征库,包括:
获取对比对象素材及其类别;
将所述对比对象素材输入至预训练过的预设卷积网络中,得到所述对比对象素材的第二预设特征;
将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开实施例在第一方面的第四种实现方式中,还包括:
利用度量学习方法对于所述预设特征库中的预设特征集进行优化。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开实施例在第一方面的第五种实现方式中,所述获取对比对象素材之后,还包括:
对于所述对比对象素材进行预处理,其中,预处理前后的对比对象素材组成所述对比对象素材。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开实施例在第一方面的第六种实现方式中,所述对于所述对比对象素材进行预处理,包括:
对于所述对比对象素材进行光照增强。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开实施例在第一方面的第七种实现方式中,所述对于所述对比对象素材进行预处理,包括:
对于所述对比对象素材按照一个或多个预设角度进行旋转。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本公开实施例在第一方面的第八种实现方式中,所述计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别,包括:
对于所述第二预设特征进行编码,得到第二编码特征,并建立所述第二预设特征与所述第二编码特征之间的索引信息;
对于所述第一预设特征进行编码,得到第一编码特征;
计算所述第一编码特征与第二编码特征之间的相似度,并根据所述索引信息确定相似度最高的第二编码特征对应的第二预设特征;
将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式和第一方面的第八种实现方式,本公开实施例在第一方面的第九种实现方式中,所述计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别,包括:
对于所述预设特征库中的预设特征集进行聚类处理,得到一个或多个聚类集合及相应的聚类中心;
将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集;
将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式、第一方面的第七种实现方式、第一方面的第八种实现方式和第一方面的第九种实现方式,本公开实施例在第一方面的第十种实现方式中,还包括:
根据所述目标对象的类别获取所述目标对象的预设信息,并根据所述预设信息执行预设操作。
第二方面,本公开实施例中提供了一种对象识别装置。
具体的,所述对象识别装置,包括:
获取模块,被配置为获取目标对象素材;
提取模块,被配置为提取所述目标对象素材的第一预设特征;
计算模块,被配置为计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
结合第二方面,本公开在第二方面的第一种实现方式中,还包括:
确定模块,被配置为确定预设特征内容及数量;
所述提取模块被配置为:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
结合第二方面和第二方面的第一种实现方式,本公开实施例在第二方面的第二种实现方式中,还包括:
生成模块,被配置为生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本公开实施例在第二方面的第三种实现方式中,所述生成模块被配置为:
获取对比对象素材及其类别;
将所述对比对象素材输入至预训练过的预设卷积网络中,得到所述对比对象素材的第二预设特征;
将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本公开实施例在第二方面的第四种实现方式中,还包括:
优化模块,被配置为利用度量学习装置对于所述预设特征库中的预设特征集进行优化。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本公开实施例在第二方面的第五种实现方式中,所述获取模块之后,还包括:
预处理模块,被配置为对于所述对比对象素材进行预处理,其中,预处理前后的对比对象素材组成所述对比对象素材。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式,本公开实施例在第二方面的第六种实现方式中,所述预处理模块被配置为:
对于所述对比对象素材进行光照增强。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式,本公开实施例在第二方面的第七种实现方式中,所述预处理模块被配置为:
对于所述对比对象素材按照一个或多个预设角度进行旋转。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式和第二方面的第七种实现方式,本公开实施例在第二方面的第八种实现方式中,所述计算模块被配置为:
对于所述第二预设特征进行编码,得到第二编码特征,并建立所述第二预设特征与所述第二编码特征之间的索引信息;
对于所述第一预设特征进行编码,得到第一编码特征;
计算所述第一编码特征与第二编码特征之间的相似度,并根据所述索引信息确定相似度最高的第二编码特征对应的第二预设特征;
将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式、第二方面的第七种实现方式和第二方面的第八种实现方式,本公开实施例在第二方面的第九种实现方式中,所述计算模块被配置为:
对于所述预设特征库中的预设特征集进行聚类处理,得到一个或多个聚类集合及相应的聚类中心;
将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集;
将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式、第二方面的第七种实现方式、第二方面的第八种实现方式和第二方面的第九种实现方式,本公开实施例在第二方面的第十种实现方式中,还包括:
执行模块,被配置为根据所述目标对象的类别获取所述目标对象的预设信息,并根据所述预设信息执行预设操作。
第三方面,本公开实施例提供了一种电子设备,包括存储器和至少一个处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现上述对象识别方法的方法步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储对象识别装置所用的计算机指令,其包含用于执行上述对象识别方法为对象识别装置所涉及的计算机指令。
第五方面,本公开实施例提供了一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现上述对象识别方法的方法步骤。
本公开实施例提供的技术方案可以包括以下有益效果:
上述技术方案直接利用特征之间的相似度对于对象进行分类和识别。该技术方案对于每一新增类别无需重新进行训练,因此能够适用于菜品等餐食的外观难以统一,且经常更新的应用场景,实现快速、有效、稳定的餐食分类与识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的对象识别方法的流程图;
图2示出根据本公开一实施方式的对象识别装置的结构框图;
图3示出根据本公开一实施方式的电子设备的结构框图;
图4是适于用来实现根据本公开一实施方式的对象识别方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
本公开实施例提供的技术方案直接利用特征之间的相似度对于对象进行分类和识别。该技术方案对于每一新增类别无需重新进行训练,因此能够适用于菜品等餐食的外观难以统一,且经常更新的应用场景,实现快速、有效、稳定的餐食分类与识别。
图1示出根据本公开一实施方式的对象识别方法的流程图,如图1所示,所述对象识别方法包括以下步骤S101-S103:
在步骤S101中,获取目标对象素材;
在步骤S102中,提取所述目标对象素材的第一预设特征;
在步骤S103中,计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
上文提及,随着数据技术和深度学习技术的发展,基于人工智能的对象分类与识别的应用越来越广泛。但现有技术中并未实现对菜品等餐食的分类与识别,即使直接使用现有对象分类与识别方法对于餐食进行分类与识别,由于菜品等餐食的外观难以统一,且经常更新,同时现有对象分类与识别方法对于每一新增类别均需要重新进行训练,因此难以实现快速、有效、稳定的餐食分类与识别。
考虑到上述缺陷,在该实施方式中,提出一种对象识别方法,该方法直接利用特征之间的相似度对于对象进行分类和识别。该技术方案对于每一新增类别无需重新进行训练,因此能够适用于菜品等餐食的外观难以统一,且经常更新的应用场景,实现快速、有效、稳定的餐食分类与识别。
在本公开一实施方式中,所述对象识别方法可适用于对于对象进行识别的计算机、计算设备、终端、电子设备、服务器等等。
在本公开一实施方式中,所述目标对象指的是待识别或分类的对象,所述对象指的是具有一定外形、具有一定特征的物体,比如菜品等餐食。
在本公开一实施方式中,所述目标对象素材比如可以为所述目标对象的图片或视频,只要是能从中提取出所述目标对象的特征即可。
在本公开一实施方式中,所述预设特征指的是预先设置好内容和数量的特征,比如,提取几个特征,以及什么特征,等等。对于菜品这一对象,考虑到由于菜品基本都是由手工制作完成,即使由机器自动制作完成,同一菜品的组成内容也具有随机呈现的特点,也就是说,不同厨师所做出的同一道菜,同一厨师或同一机器每次做出的同一道菜,其原材料种类、原材料数量、原材料比重几乎都是不同的,由于菜品制作时间、菜品翻炒次数和力度以及灶火的大小和炒锅的温度都不尽相同,因此最终菜品成品的颜色分布、颜色比重、菜品材料的形态表现等外观特征几乎都是不相同的,比如,对于番茄炒蛋这个简单的菜品来说,番茄和鸡蛋使用的比例不同,炒制手法、炒制力度和炒制温度不同,都将会导致最终菜品成品番茄和鸡蛋的形态不同,而且有的厨师在炒制番茄炒蛋时,还使用香葱点缀,或者加入香菜等蔬菜作为辅料,上述这些原因都会导致最终菜品成品的外观特征不同,另外,每个菜品在出品之后被放置的位置、其所处的光照环境等条件也大概率出现不同,因此,所述菜品的预设特征应提取多个、全面的、能够覆盖所述菜品的表现特征的特征,比如,所述菜品的颜色特征、形态特征、位置特征、光照特征,其中,所述颜色特征可包括颜色构成、颜色分布、颜色比例等特征,所述形态特征可包括固态液态等多形态的构成、分布、比例等特征,所述位置特征可包括菜品不同组成部分的绝对位置信息和相对位置信息等等,所述光照特征可包括光照强度、光照分布等特征。其中,为了对于目标对象进行有效、准确的识别,所述目标对象素材的第一预设特征和预设特征库中的第二预设特征内容相一致。
在本公开一实施方式中,所述预设特征库指的是基于度量学习生成的、包括一个或多个对比对象的第二预设特征的数据库,其中,所述对比对象指的是其预设特征用于与所述目标对象的第一预设特征进行对比和匹配,进而借助对比和匹配结果确定所述目标对象的类别的对象。更为具体地,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,其中,为了丰富所述对象的特征,从而提高菜品分类和识别的准确率,每个预设特征集中包括一个或多个对比对象素材对应的第二预设特征,比如,对于菜品,这样就可以使得不管该菜品由谁做出,菜品如何炒制,菜品内容如何呈现,以及其被放置在什么位置,处于什么光照环境中,均能够对其进行准确识别。
在上述实施方式中,首先获取待分类和识别的目标对象的素材,然后提取所述目标对象素材的第一预设特征,计算所述第一预设特征与基于度量学习生成的预设特征库中一个或多个第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
在本公开一实施方式中,所述方法还可包括以下步骤:
确定预设特征内容及数量;
为了便于所述目标对象素材第一预设特征与所述对比对象素材第二预设特征之间的匹配,衡量所述目标对象素材第一预设特征与所述对比对象素材第二预设特征之间的关系和相似度,在该实施方式中,首先确定预设特征的内容及数量。
在该实施方式中,所述步骤S102,即提取所述目标对象素材的第一预设特征的步骤,可包括以下步骤:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
在该实施方式中,首先基于训练对象素材及其预设特征内容及数量训练得到的一个用于提取预设特征的预设卷积网络,然后将所述目标对象素材输入至所述预设卷积网络中,即可得到所述目标对象素材的第一预设特征。其中,所述训练对象素材的预设特征的内容及数量与所述目标对象素材的第一预设特征的内容及数量、以及所述对比对象素材的第二预设特征的内容及数量相一致。
在本公开一实施方式中,所述方法还可包括以下步骤:
生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
为了搜索、确定与所述目标对象素材的第一预设特征相似度最高的第二预设特征,在该实施方式中,还需预先生成所述预设特征库。
在本公开一实施方式中,所述生成预设特征库的步骤,可包括以下步骤:
获取对比对象素材及其类别;
将所述对比对象素材输入至预训练过的预设卷积网络中,得到所述对比对象素材的第二预设特征;
将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
在生成所述预设特征库时,首先获取对比对象素材及其类别信息,然后与所述目标对象素材第一预设特征的获取方法类似,将所述对比对象素材输入至所述预训练过的预设卷积网络中,即可得到所述对比对象素材的第二预设特征,最后将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
在本公开一实施方式中,所述方法还可包括以下步骤:
利用度量学习方法对于所述预设特征库中的预设特征集进行优化。
为了使得同属于一个对比对象类别的预设特征相似性较强,不属于一个对比对象类别的预设特征相似性较弱,在该实施方式中,还利用度量学习方法对于所述预设特征库中的预设特征集进行优化。具体地,利用度量学习方法对于所述预设特征库中的预设特征集进行优化,即使用下述统一损失函数Luni最大化类内相似性sp,同时最小化类间相似性sn,其中,所述统一损失函数Luni可表示为:
在本公开一实施方式中,所述获取对比对象素材的步骤之后,还可包括以下步骤:
对于所述对比对象素材进行预处理,其中,预处理前后的对比对象素材组成所述对比对象素材。
为了提高预设特征库中预设特征的完备性和鲁棒性,在该实施方式中,在获取得到所述对比对象素材之后,还需对于所述对比对象素材进行预处理,然后将预处理前后的对比对象素材都作为所述对比对象素材。
在本公开一实施方式中,所述对于所述对比对象素材进行预处理的步骤,可包括以下步骤:
对于所述对比对象素材进行光照增强。
考虑到很多场景中的对象素材很容易受到光照的影响,从而使得对象素材亮度较暗,不利于后续预设特征的提取,因此,在该实施方式中,对于所述对比对象素材进行光照增强处理,将经过光照增强后的素材以及未经过光照增强的原始对比对象素材均作为对比对象素材,然后再提取其第二预设特征,组成所述预设特征库,以提高后续目标对象分类和识别的准确率。
在本公开一实施方式中,所述对于所述对比对象素材进行预处理的步骤,可包括以下步骤:
对于所述对比对象素材按照一个或多个预设角度进行旋转。
考虑到通常在进行其他对象识别时,待识别对象都是处于固定的位置,但菜品却不一样,菜品的放置位置和放置角度经常会变化,也就是说,在很多场景中,对象素材的拍摄角度并不统一和固定,拍摄得到的对象素材具有各种角度,不利于后续预设特征的提取,因此,在该实施方式中,还可对于所述对比对象素材进行按照一个或多个预设角度的旋转处理,并将旋转处理后的素材作为所述对比对象素材参与后续第二预设特征的提取,以组成所述预设特征库,进而提高后续目标对象分类和识别的准确率。
其中,所述旋转处理指的是以某一点O作为旋转中心,将图像中的所有点都绕O点旋转一定的角度θ,所述旋转处理可表示为矩阵形式:
其中,(x,y)表示图像中的某一点的坐标,(x0,y0)表示点O的坐标。
在本公开一实施方式中,所述步骤S103,即计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别的步骤,可包括以下步骤:
对于所述第二预设特征进行编码,得到第二编码特征,并建立所述第二预设特征与所述第二编码特征之间的索引信息;
对于所述第一预设特征进行编码,得到第一编码特征;
计算所述第一编码特征与第二编码特征之间的相似度,并根据所述索引信息确定相似度最高的第二编码特征对应的第二预设特征;
将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
为了提高特征查询的速度和效率,在该实施方式中,将待对比的第一预设特征和第二预设特征都进行预设规则的编码,以将所述预设特征变换为长度更短的数据,其中,所述编码可以为现有技术中常用的编码方法,比如,16位浮点数编码、8位浮点数编码、PQ编码等等。同时还建立编码后的第二编码特征与第二预设特征之间的索引信息,即所述第二编码特征与第二预设特征之间的对应关系,以方便根据所述第二编码特征来查询所述第二预设特征。这样就可以直接对第一编码特征与第二编码特征进行对比,确定与所述第一编码特征相似度最高的第二编码特征,进一步,再根据所述第二编码特征与第二预设特征之间的索引信息,根据与所述第一编码特征相似度最高的第二编码特征快速找到与所述第二编码特征对应的第二预设特征,最后将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。该实施方式中对于预设特征的编码以及预设特征库第二预设特征与第二编码特征之间索引的建立能够有效减少特征对比所产生的数据量,大大降低所需计算量,同时还能有效提高特征查询的速度和效率。
其中,在计算所述第一编码特征与第二编码特征之间的相似度时,可使用cos距离、欧式距离等距离计算方式。
在本公开另一实施方式中,还可基于聚类算法确定所述目标对象的类别,即所述步骤S103,即计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别的步骤,还可包括以下步骤:
对于所述预设特征库中的预设特征集进行聚类处理,得到一个或多个聚类集合及相应的聚类中心;
将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集;
将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
在该实施方式中,首先利用聚类算法对于所述预设特征库中的预设特征集进行聚类处理,得到与所述预设特征库对应的一个或多个聚类集合及相应的聚类集合的聚类中心,然后将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集,最后将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征所对应的对比对象类别确定为所述目标对象的类别。上述基于聚类算法的目标对象类别确定方法能够提高目标对象类别的识别速度和效率。
在本公开一实施方式中,所述方法还可包括以下步骤:
根据所述目标对象的类别获取所述目标对象的预设信息,并根据所述预设信息执行预设操作。
其中,所述目标对象的预设信息指的是与所述目标对象相关的或者对应的信息,比如,当所述目标对象为菜品等餐食时,所述目标对象的预设信息可以为所述餐食的价格,此时,所述预设操作比如可以为针对所述餐食的收银、收款、结账等操作。但需注意的是,由于不同餐饮店菜品类别多不相同,具有同一菜品名称的菜品的特征也很有可能不相同,特征相似的菜品也未必属于同一类别,因此,当所述目标对象为菜品时,上述对于菜品的识别和预设操作需在同一餐饮店餐饮店进行。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图2示出根据本公开一实施方式的对象识别装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2所示,所述对象识别装置包括:
获取模块201,被配置为获取目标对象素材;
提取模块202,被配置为提取所述目标对象素材的第一预设特征;
计算模块203,被配置为计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
上文提及,随着数据技术和深度学习技术的发展,基于人工智能的对象分类与识别的应用越来越广泛。但现有技术中并未实现对菜品等餐食的分类与识别,即使直接使用现有对象分类与识别方法对于餐食进行分类与识别,由于菜品等餐食的外观难以统一,且经常更新,同时现有对象分类与识别方法对于每一新增类别均需要重新进行训练,因此难以实现快速、有效、稳定的餐食分类与识别。
考虑到上述缺陷,在该实施方式中,提出一种对象识别装置,该装置直接利用特征之间的相似度对于对象进行分类和识别。该技术方案对于每一新增类别无需重新进行训练,因此能够适用于菜品等餐食的外观难以统一,且经常更新的应用场景,实现快速、有效、稳定的餐食分类与识别。
在本公开一实施方式中,所述对象识别装置可实现为对于对象进行识别的计算机、计算设备、终端、电子设备、服务器等等。
在本公开一实施方式中,所述目标对象指的是待识别或分类的对象,所述对象指的是具有一定外形、具有一定特征的物体,比如菜品等餐食。
在本公开一实施方式中,所述目标对象素材比如可以为所述目标对象的图片或视频,只要是能从中提取出所述目标对象的特征即可。
在本公开一实施方式中,所述预设特征指的是预先设置好内容和数量的特征,比如,提取几个特征,以及什么特征,等等。对于菜品这一对象,考虑到由于菜品基本都是由手工制作完成,即使由机器自动制作完成,同一菜品的组成内容也具有随机呈现的特点,也就是说,不同厨师所做出的同一道菜,同一厨师或同一机器每次做出的同一道菜,其原材料种类、原材料数量、原材料比重几乎都是不同的,由于菜品制作时间、菜品翻炒次数和力度以及灶火的大小和炒锅的温度都不尽相同,因此最终菜品成品的颜色分布、颜色比重、菜品材料的形态表现等外观特征几乎都是不相同的,比如,对于番茄炒蛋这个简单的菜品来说,番茄和鸡蛋使用的比例不同,炒制手法、炒制力度和炒制温度不同,都将会导致最终菜品成品番茄和鸡蛋的形态不同,而且有的厨师在炒制番茄炒蛋时,还使用香葱点缀,或者加入香菜等蔬菜作为辅料,上述这些原因都会导致最终菜品成品的外观特征不同,另外,每个菜品在出品之后被放置的位置、其所处的光照环境等条件也大概率出现不同,因此,所述菜品的预设特征应提取多个、全面的、能够覆盖所述菜品的表现特征的特征,比如,所述菜品的颜色特征、形态特征、位置特征、光照特征,其中,所述颜色特征可包括颜色构成、颜色分布、颜色比例等特征,所述形态特征可包括固态液态等多形态的构成、分布、比例等特征,所述位置特征可包括菜品不同组成部分的绝对位置信息和相对位置信息等等,所述光照特征可包括光照强度、光照分布等特征。其中,为了对于目标对象进行有效、准确的识别,所述目标对象素材的第一预设特征和预设特征库中的第二预设特征内容相一致。
在本公开一实施方式中,所述预设特征库指的是基于度量学习生成的、包括一个或多个对比对象的第二预设特征的数据库,其中,所述对比对象指的是其预设特征用于与所述目标对象的第一预设特征进行对比和匹配,进而借助对比和匹配结果确定所述目标对象的类别的对象。更为具体地,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,其中,为了丰富所述对象的特征,从而提高菜品分类和识别的准确率,每个预设特征集中包括一个或多个对比对象素材对应的第二预设特征,比如,对于菜品,这样就可以使得不管该菜品由谁做出,菜品如何炒制,菜品内容如何呈现,以及其被放置在什么位置,处于什么光照环境中,均能够对其进行准确识别。
在上述实施方式中,首先获取待分类和识别的目标对象的素材,然后提取所述目标对象素材的第一预设特征,计算所述第一预设特征与基于度量学习生成的预设特征库中一个或多个第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
在本公开一实施方式中,所述装置还可包括:
确定模块,被配置为确定预设特征内容及数量;
为了便于所述目标对象素材第一预设特征与所述对比对象素材第二预设特征之间的匹配,衡量所述目标对象素材第一预设特征与所述对比对象素材第二预设特征之间的关系和相似度,在该实施方式中,首先确定预设特征的内容及数量。
在该实施方式中,所述提取模块202可被配置为:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
在该实施方式中,首先基于训练对象素材及其预设特征内容及数量训练得到的一个用于提取预设特征的预设卷积网络,然后将所述目标对象素材输入至所述预设卷积网络中,即可得到所述目标对象素材的第一预设特征。其中,所述训练对象素材的预设特征的内容及数量与所述目标对象素材的第一预设特征的内容及数量、以及所述对比对象素材的第二预设特征的内容及数量相一致。
在本公开一实施方式中,所述装置还可包括:
生成模块,被配置为生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
为了搜索、确定与所述目标对象素材的第一预设特征相似度最高的第二预设特征,在该实施方式中,还需预先生成所述预设特征库。
在本公开一实施方式中,所述生成模块可被配置为:
获取对比对象素材及其类别;
将所述对比对象素材输入至预训练过的预设卷积网络中,得到所述对比对象素材的第二预设特征;
将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
在生成所述预设特征库时,首先获取对比对象素材及其类别信息,然后与所述目标对象素材第一预设特征的获取方法类似,将所述对比对象素材输入至所述预训练过的预设卷积网络中,即可得到所述对比对象素材的第二预设特征,最后将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
在本公开一实施方式中,所述装置还可包括:
优化模块,被配置为利用度量学习装置对于所述预设特征库中的预设特征集进行优化。
为了使得同属于一个对比对象类别的预设特征相似性较强,不属于一个对比对象类别的预设特征相似性较弱,在该实施方式中,还利用度量学习方法对于所述预设特征库中的预设特征集进行优化。具体地,利用度量学习方法对于所述预设特征库中的预设特征集进行优化,即使用下述统一损失函数Luni最大化类内相似性sp,同时最小化类间相似性sn,其中,所述统一损失函数Luni可表示为:
在本公开一实施方式中,所述获取模块之后,还包括:
预处理模块,被配置为对于所述对比对象素材进行预处理,其中,预处理前后的对比对象素材组成所述对比对象素材。
为了提高预设特征库中预设特征的完备性和鲁棒性,在该实施方式中,在获取得到所述对比对象素材之后,还需对于所述对比对象素材进行预处理,然后将预处理前后的对比对象素材都作为所述对比对象素材。
在本公开一实施方式中,所述预处理模块可被配置为:
对于所述对比对象素材进行光照增强。
考虑到很多场景中的对象素材很容易受到光照的影响,从而使得对象素材亮度较暗,不利于后续预设特征的提取,因此,在该实施方式中,对于所述对比对象素材进行光照增强处理,将经过光照增强后的素材以及未经过光照增强的原始对比对象素材均作为对比对象素材,然后再提取其第二预设特征,组成所述预设特征库,以提高后续目标对象分类和识别的准确率。
在本公开一实施方式中,所述预处理模块可被配置为:
对于所述对比对象素材按照一个或多个预设角度进行旋转。
考虑到通常在进行其他对象识别时,待识别对象都是处于固定的位置,但菜品却不一样,菜品的放置位置和放置角度经常会变化,也就是说,在很多场景中,对象素材的拍摄角度并不统一和固定,拍摄得到的对象素材具有各种角度,不利于后续预设特征的提取,因此,在该实施方式中,还可对于所述对比对象素材进行按照一个或多个预设角度的旋转处理,并将旋转处理后的素材作为所述对比对象素材参与后续第二预设特征的提取,以组成所述预设特征库,进而提高后续目标对象分类和识别的准确率。
其中,所述旋转处理指的是以某一点O作为旋转中心,将图像中的所有点都绕O点旋转一定的角度θ,所述旋转处理可表示为矩阵形式:
其中,(x,y)表示图像中的某一点的坐标,(x0,y0)表示点O的坐标。
在本公开一实施方式中,所述计算模块203可被配置为:
对于所述第二预设特征进行编码,得到第二编码特征,并建立所述第二预设特征与所述第二编码特征之间的索引信息;
对于所述第一预设特征进行编码,得到第一编码特征;
计算所述第一编码特征与第二编码特征之间的相似度,并根据所述索引信息确定相似度最高的第二编码特征对应的第二预设特征;
将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。
为了提高特征查询的速度和效率,在该实施方式中,将待对比的第一预设特征和第二预设特征都进行预设规则的编码,以将所述预设特征变换为长度更短的数据,其中,所述编码可以为现有技术中常用的编码方法,比如,16位浮点数编码、8位浮点数编码、PQ编码等等。同时还建立编码后的第二编码特征与第二预设特征之间的索引信息,即所述第二编码特征与第二预设特征之间的对应关系,以方便根据所述第二编码特征来查询所述第二预设特征。这样就可以直接对第一编码特征与第二编码特征进行对比,确定与所述第一编码特征相似度最高的第二编码特征,进一步,再根据所述第二编码特征与第二预设特征之间的索引信息,根据与所述第一编码特征相似度最高的第二编码特征快速找到与所述第二编码特征对应的第二预设特征,最后将所述第二预设特征对应的对比对象的类别确定为所述目标对象的类别。该实施方式中对于预设特征的编码以及预设特征库第二预设特征与第二编码特征之间索引的建立能够有效减少特征对比所产生的数据量,大大降低所需计算量,同时还能有效提高特征查询的速度和效率。
其中,在计算所述第一编码特征与第二编码特征之间的相似度时,可使用cos距离、欧式距离等距离计算方式。
在本公开另一实施方式中,还可基于聚类算法确定所述目标对象的类别,即所述计算模块203还可被配置为:
对于所述预设特征库中的预设特征集进行聚类处理,得到一个或多个聚类集合及相应的聚类中心;
将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集;
将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
在该实施方式中,首先利用聚类算法对于所述预设特征库中的预设特征集进行聚类处理,得到与所述预设特征库对应的一个或多个聚类集合及相应的聚类集合的聚类中心,然后将与所述第一预设特征之间的距离最近的聚类中心所属的预设特征集作为目标预设特征集,最后将所述目标预设特征集中与所述第一预设特征之间的距离最近的第二预设特征所对应的对比对象类别确定为所述目标对象的类别。上述基于聚类算法的目标对象类别确定方法能够提高目标对象类别的识别速度和效率。
在本公开一实施方式中,所述装置还可包括:
执行模块,被配置为根据所述目标对象的类别获取所述目标对象的预设信息,并根据所述预设信息执行预设操作。
其中,所述目标对象的预设信息指的是与所述目标对象相关的或者对应的信息,比如,当所述目标对象为菜品等餐食时,所述目标对象的预设信息可以为所述餐食的价格,此时,所述预设操作比如可以为针对所述餐食的收银、收款、结账等操作。
本公开还公开了一种电子设备,图3示出根据本公开一实施方式的电子设备的结构框图,如图3所示,所述电子设备300包括存储器301和处理器302;其中,
所述存储器301用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器302执行以实现上述方法步骤。
图4是适于用来实现根据本公开一实施方式的对象识别方法的计算机***的结构示意图。
如图4所示,计算机***400包括处理单元401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述实施方式中的各种处理。在RAM403中,还存储有***400操作所需的各种程序和数据。处理单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中,所述处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种对象识别方法,包括:
获取目标对象素材;
提取所述目标对象素材的第一预设特征;
计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
2.根据权利要求1所述的方法,还包括:
确定预设特征内容及数量;
所述提取所述目标对象素材的第一预设特征,包括:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
3.根据权利要求1或2所述的方法,还包括:
生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
4.根据权利要求3所述的方法,所述生成预设特征库,包括:
获取对比对象素材及其类别;
将所述对比对象素材输入至预训练过的预设卷积网络中,得到所述对比对象素材的第二预设特征;
将同属于一个对比对象类别的第二预设特征组成一个预设特征集,将不同对比对象类别对应的预设特征集组成所述预设特征库。
5.一种对象识别装置,包括:
获取模块,被配置为获取目标对象素材;
提取模块,被配置为提取所述目标对象素材的第一预设特征;
计算模块,被配置为计算所述第一预设特征与基于度量学习生成的预设特征库中第二预设特征之间的相似度,将相似度最高的第二预设特征对应的对比对象类别确定为所述目标对象的类别。
6.根据权利要求5所述的装置,还包括:
确定模块,被配置为确定预设特征内容及数量;
所述提取模块被配置为:
将所述目标对象素材输入至预训练过的预设卷积网络中,得到所述目标对象素材的第一预设特征,其中,所述预设卷积网络是基于训练对象素材及其预设特征内容及数量训练得到的。
7.根据权利要求5或6所述的装置,还包括:
生成模块,被配置为生成预设特征库,其中,所述预设特征库中包括与不同对比对象类别对应的一个或多个预设特征集,每个预设特征集中包括一个或多个对比对象素材的第二预设特征。
8.一种电子设备,包括存储器和至少一个处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现权利要求1-4任一项所述的方法步骤。
9.一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1-4任一项所述的方法步骤。
10.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现权利要求1-4任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251305.XA CN112784822A (zh) | 2021-03-08 | 2021-03-08 | 对象识别方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251305.XA CN112784822A (zh) | 2021-03-08 | 2021-03-08 | 对象识别方法、装置、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112784822A true CN112784822A (zh) | 2021-05-11 |
Family
ID=75762375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251305.XA Pending CN112784822A (zh) | 2021-03-08 | 2021-03-08 | 对象识别方法、装置、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784822A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313149A (zh) * | 2021-05-14 | 2021-08-27 | 华南理工大学 | 一种基于注意力机制和度量学习的菜品识别方法 |
CN114283366A (zh) * | 2021-12-24 | 2022-04-05 | 东北农业大学 | 一种奶牛个体身份识别方法和装置、存储介质 |
CN116228759A (zh) * | 2023-05-08 | 2023-06-06 | 浙江大学滨江研究院 | 肾细胞癌类型的计算机辅助诊断***及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679863A (zh) * | 2015-02-28 | 2015-06-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和*** |
US20200027002A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Category learning neural networks |
CN111274972A (zh) * | 2020-01-21 | 2020-06-12 | 北京妙医佳健康科技集团有限公司 | 基于度量学习的菜品识别方法及装置 |
CN111581420A (zh) * | 2020-04-30 | 2020-08-25 | 徐州医科大学 | 一种基于Flink的医学图像实时检索方法 |
CN111753618A (zh) * | 2019-12-20 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 图像识别方法、装置、计算机设备及计算机可读存储介质 |
CN112084366A (zh) * | 2020-09-11 | 2020-12-15 | 北京百度网讯科技有限公司 | 用于检索图像的方法、装置、设备以及存储介质 |
CN112115906A (zh) * | 2020-09-25 | 2020-12-22 | 广州市派客朴食信息科技有限责任公司 | 基于深度学习目标检测和度量学习的开放性菜品识别方法 |
-
2021
- 2021-03-08 CN CN202110251305.XA patent/CN112784822A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679863A (zh) * | 2015-02-28 | 2015-06-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和*** |
US20200027002A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Category learning neural networks |
CN111753618A (zh) * | 2019-12-20 | 2020-10-09 | 北京沃东天骏信息技术有限公司 | 图像识别方法、装置、计算机设备及计算机可读存储介质 |
CN111274972A (zh) * | 2020-01-21 | 2020-06-12 | 北京妙医佳健康科技集团有限公司 | 基于度量学习的菜品识别方法及装置 |
CN111581420A (zh) * | 2020-04-30 | 2020-08-25 | 徐州医科大学 | 一种基于Flink的医学图像实时检索方法 |
CN112084366A (zh) * | 2020-09-11 | 2020-12-15 | 北京百度网讯科技有限公司 | 用于检索图像的方法、装置、设备以及存储介质 |
CN112115906A (zh) * | 2020-09-25 | 2020-12-22 | 广州市派客朴食信息科技有限责任公司 | 基于深度学习目标检测和度量学习的开放性菜品识别方法 |
Non-Patent Citations (1)
Title |
---|
梁玮,裴明涛: "《计算机视觉》", 31 January 2021, 北京理工大学出版社, pages: 120 - 121 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313149A (zh) * | 2021-05-14 | 2021-08-27 | 华南理工大学 | 一种基于注意力机制和度量学习的菜品识别方法 |
CN113313149B (zh) * | 2021-05-14 | 2022-11-18 | 华南理工大学 | 一种基于注意力机制和度量学习的菜品识别方法 |
CN114283366A (zh) * | 2021-12-24 | 2022-04-05 | 东北农业大学 | 一种奶牛个体身份识别方法和装置、存储介质 |
CN116228759A (zh) * | 2023-05-08 | 2023-06-06 | 浙江大学滨江研究院 | 肾细胞癌类型的计算机辅助诊断***及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9330341B2 (en) | Image index generation based on similarities of image features | |
CN112784822A (zh) | 对象识别方法、装置、电子设备、存储介质及程序产品 | |
US10032072B1 (en) | Text recognition and localization with deep learning | |
Ali et al. | A novel image retrieval based on visual words integration of SIFT and SURF | |
US9558213B2 (en) | Refinement shape content search | |
US9189854B2 (en) | Contour detection and image classification | |
CN112329888B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
Chang et al. | A novel content based image retrieval system using k-means/knn with feature extraction | |
Liu et al. | Automated assembly of shredded pieces from multiple photos | |
CN113223013B (zh) | 一种肺血管分段定位的方法、装置、设备及存储介质 | |
CN108550065A (zh) | 评论数据处理方法、装置及设备 | |
Zhang et al. | Image retrieval of wool fabric. Part I: Based on low-level texture features | |
CN108875828A (zh) | 一种相似图像的快速匹配方法和*** | |
Vieira et al. | CBIR-ANR: A content-based image retrieval with accuracy noise reduction | |
Meng et al. | Merged region based image retrieval | |
Mussarat et al. | Content based image retrieval using combined features of shape, color and relevance feedback | |
CN117609583A (zh) | 一种基于图像文本组合检索的海关进出口商品归类方法 | |
Zhang et al. | A YOLOv3‐Based Industrial Instrument Classification and Reading Recognition Method | |
CN111291829A (zh) | 一种精选图片的自动确定方法和*** | |
CN111144439A (zh) | 一种物体识别中选择最优图像匹配算法的方法 | |
CN112132063B (zh) | 一种基于聚类量化实时匹配的食物识别方法 | |
CN117076713B (zh) | 一种视频指纹提取和检索方法 | |
Huang et al. | Efficient shape-based image retrieval based on gray relational analysis and association rules | |
EP3754551A1 (en) | Item comparison system, device and method therefor | |
CN117953273A (zh) | 免学习人工智能ai秤的建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |