CN115861675A - 对象分类方法和设备 - Google Patents

对象分类方法和设备 Download PDF

Info

Publication number
CN115861675A
CN115861675A CN202210279284.7A CN202210279284A CN115861675A CN 115861675 A CN115861675 A CN 115861675A CN 202210279284 A CN202210279284 A CN 202210279284A CN 115861675 A CN115861675 A CN 115861675A
Authority
CN
China
Prior art keywords
feature data
feature
merged
data
object classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210279284.7A
Other languages
English (en)
Inventor
郑相一
朴陞忍
俞炳仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115861675A publication Critical patent/CN115861675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

公开了对象分类方法和设备。所述对象分类方法包括:接收输入图像;存储由神经网络的第一特征提取层提取的第一特征数据,神经网络被配置为提取输入图像的特征;从第二特征提取层接收第二特征数据,第二特征提取层是第一特征提取层的上层;通过将第一特征数据和第二特征数据合并来生成合并的特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。

Description

对象分类方法和设备
本申请要求于2021年9月24日在韩国知识产权局提交的第10-2021-0126062号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及对象分类方法和设备。
背景技术
可通过执行识别模型(例如,分类器)来对图像中的对象进行识别或分类。神经网络可被执行以输出与输入信息的输入模式对应的识别结果。在大量训练之后,神经网络可提供输入模式与输出模式之间的计算上直观的映射。生成这样的映射的训练的能力可被称为神经网络的学习能力。此外,由于专门的训练,这样专门训练的神经网络可因此具有例如针对神经网络可能没有针对其被训练的输入模式来生成相对准确的输出的泛化能力。
发明内容
提供本发明内容以简化的形式介绍将在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。
在一个总体方面,一种处理器实现的对象分类方法包括:接收输入图像;存储由神经网络的第一特征提取层提取的第一特征数据,神经网络被配置为提取输入图像的特征;从第二特征提取层接收第二特征数据;通过将第一特征数据和第二特征数据合并来生成合并特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。
第二特征提取层可以是第一特征提取层的上层。
第二特征提取层可以是包括在神经网络中的多个特征提取层之中的最上面的特征提取层。
生成合并的特征数据的步骤可包括:确定将应用于第一特征数据的权重;将确定的权重应用于第一特征数据,并且确定应用了权重的第一特征数据;以及通过将第二特征数据和应用了权重的第一特征数据合并来生成合并的特征数据。
生成合并的特征数据的步骤可包括:通过对应于第一特征数据的特征图与对应于第二特征数据的特征向量之间的内积来执行合并。
生成合并的特征数据的步骤可包括:对第二特征数据进行转换,使得第二特征数据的维度对应于第一特征数据的维度;以及通过将转换后的第二特征数据和第一特征数据合并来生成合并的特征数据。
生成合并的特征数据的步骤可包括:对合并的特征数据进行转换,使得合并的特征数据的维度对应于第二特征数据的维度。
生成合并的特征数据的步骤可包括:通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据;以及通过将第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据,第三特征数据由作为第一特征提取层的下层的第三特征提取层提取,其中,对输入图像中的对象进行分类的步骤可包括:基于第二合并的特征数据对输入图像中的对象进行分类。
生成第二合并的特征数据的步骤可包括:对第一合并的特征数据进行转换,使得第一合并的特征数据的维度对应于第三特征数据的维度;以及通过将转换后的第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据。
第一特征数据可包括输入图像的局部特征,第二特征数据包括输入图像的全局特征。
在一个总体方面,一种处理器实现的对象分类方法包括:接收输入图像;存储由神经网络的特征提取层提取的特征数据,神经网络被配置为提取输入图像的特征;通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。
生成合并的特征数据的步骤可包括:从接收的输入图像中的对象的多个候选类中选择一个或多个候选类;以及通过将特征数据和所选择的所述一个或多个候选类的类向量数据合并来生成合并的特征数据。
存储特征数据的步骤可包括:存储由神经网络的每个特征提取层提取的特征数据,其中,生成合并的特征数据的步骤可包括:通过顺序地将类向量数据和由特征提取层提取的多组特征数据合并来生成合并的特征数据。
生成合并的特征数据的步骤可包括:对类向量数据进行转换,使得类向量数据的维度对应于特征数据的维度;以及通过将转换后的类向量数据和特征数据合并来生成合并的特征数据。
在一个总体方面,一种执行神经网络的对象分类设备,所述对象分类设备包括:一个或多个处理器,被配置为:接收输入图像;存储由神经网络的第一特征提取层提取的第一特征数据;从第二特征提取层接收第二特征数据;通过将第一特征数据和第二特征数据合并来生成合并的特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。
第二特征提取层可以是第一特征提取层的上层。
第二特征提取层可以是包括在神经网络中的多个特征提取层之中的最上面的特征提取层。
处理器还可被配置为:通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据;通过将第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据,第三特征数据从作为第一特征提取层的下层的第三特征提取层提取;以及基于第二合并的特征数据对对象进行分类。
在一个总体方面,一种执行神经网络的对象分类设备,所述对象分类设备包括:一个或多个处理器,被配置为:接收输入图像;存储由神经网络的特征提取层提取的特征数据;通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。
处理器还可被配置为:从输入图像中的对象的多个候选类中选择一个或多个候选类;以及通过将特征数据和所选择的所述一个或多个候选类的类向量数据合并来生成合并的特征数据。
处理器还可被配置为:存储由神经网络的每个特征提取层提取的特征数据;以及通过顺序地将类向量数据和由神经网络的特征提取层提取的多组特征数据合并来生成合并的特征数据。
在一个总体方面,一种电子设备包括:一个或多个处理器,被配置为:存储由神经网络的第一特征提取层提取的第一特征数据,神经网络被配置为提取输入图像的特征;从第二特征提取层获得第二特征数据,第二特征提取层是第一特征提取层的上层;通过将第一特征数据和第二特征数据合并来生成合并的特征数据;以及基于合并的特征数据对输入图像中的对象进行分类。
所述电子设备还可包括存储指令的存储器,所述指令在由所述一个或多个处理器执行时,配置所述一个或多个处理器执行以下步骤:存储第一特征数据;获得第二特征数据;生成合并的特征数据;以及对输入图像中的对象进行分类。
在一个总体方面,一种处理器实现的方法包括:接收输入数据;接收输入图像的全局信息,并且生成对应于全局信息的第一特征数据;接收输入图像的局部信息,并且生成对应于局部信息的第二特征数据;通过将对应于全局信息的特征数据和对应于局部信息的特征数据合并来生成合并的特征数据;以及基于生成的合并的特征数据对输入图像中的对象进行分类。
特征数据可包括特征向量、特征图、激活数据和激活图中的一者。
生成合并的特征数据的步骤可基于对应于第一特征数据的特征图与对应于第二特征数据的特征向量之间的内积。
从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1示出根据一个或多个实施例的被配置为对图像中的对象进行分类的示例对象分类设备的操作的示例概况。
图2示出根据一个或多个实施例的对象分类方法的示例。
图3示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
图4示出根据一个或多个实施例的对象分类方法的示例。
图5示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
图6示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
图7示出根据一个或多个实施例的对象分类设备的示例。
图8示出根据一个或多个实施例的电子设备的示例。
贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对大小、比例和描绘可被夸大。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如,在此描述的操作顺序仅是示例,并不限于在此阐述的操作顺序,而是除了必须以特定次序发生的操作之外,可如在理解本申请的公开之后将是清楚地那样被改变。此外,为了更清楚和简明,可省略在理解本申请的公开之后已知的特征的描述,注意,省略特征及其描述也不意在承认其常识。
在此描述的特征可以以不同的形式实施,并且不应被解释为限于在此描述的示例。更确切地说,在此描述的示例已被提供,以仅示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或***的许多可能方式中的一些可能方式。
在此使用的术语仅用于描述特定示例的目的,而不应限制公开。如在此使用的,除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。如在此使用的,术语“和/或”包括相关所列项中的任何一个和任何两个或更多个的任何组合。如在此使用的,术语“包括”、“包含”和“具有”表明存在陈述的特征、数量、操作、元件、组件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、元件、组件和/或它们的组合。在此针对示例或实施例使用术语“可”(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例,而所有示例不限于此。
尽管在此使用术语“第一”或“第二”来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不受这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
贯穿说明书,当元件(诸如,层、区域或基底)被描述为“在”另一元件“上”、“连接到”或“结合到”另一元件时,它可直接“在”所述另一元件“上”、直接“连接到”或直接“结合到”所述另一元件,或者可存在介于它们之间的一个或多个其他元件。相比之下,当元件被描述为“直接在”另一元件“上”、“直接连接到”或“直接结合到”另一元件时,可不存在介于它们之间的其他元件。同样地,例如“在……之间”和“紧接在……之间”以及“与……相邻”和“与……紧邻”的表述也可如前文所述那样被解释。
除非另外定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解的含义一致和在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的那些术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应以理想化或过于形式化的含义进行解释。
此外,在示例实施例的描述中,当认为对在理解本申请的公开之后已知的结构或功能的详细描述可能导致示例实施例的模糊解释时,可省略这样的描述。在下文中,将参照附图详细描述示例,并且附图中相同的参考标号始终表示相同的元件。
一个或多个示例涉及从图像提取特征和基于提取的特征对对象进行分类。
图1示出根据一个或多个实施例的被配置为对图像中的对象进行分类的对象分类设备的操作的概况的示例。
参照图1,被配置为对输入图像中的对象进行分类的对象分类设备100可执行图像识别(或视觉识别)。图像识别可包括检测输入图像110中的对象120,以及辨识对象120或将对象120的类型分类为对象的不同类型之一。在一个示例中,输入图像110可以是静止图像或运动图像(或视频),并且仅作为示例,可对应于彩色图像、黑白图像、灰度图像、红外图像或深度图像。在此使用的术语“输入图像”也可被简称为“图像”。在此使用的术语“对象”可被解释为将在输入图像中被分类的目标对象(例如,人、生命体或无生命体等)。将被分类的对象的类型可预先被定义为特定类型(例如,人、成像装置等),或者可不限于特定类型。在此应当注意,关于示例或实施例使用术语“可”(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例,而所有示例和实施例不限于此。
对象分类设备100可应用于各种领域。在一个示例中,对象分类设备100可用于检测人、人的姿势或移动以及图像中特定对象的存在。另外,在一个示例中,对象分类设备100可用在用于闭路电视(CCTV)监视、军事边界监视等的监视***、体育比赛分析、智能校园、视频会议***等中。对象分类设备100还可用于图像中的对象检测和对象分类可能有益的其他领域。对象分类设备100可应用于需要图像识别的各种成像装置(诸如但不限于智能电话、数码相机、TV、个人数字助理(PDA)、膝上型计算机、平板计算机等)。
在对象分类处理中,作为对象分类的目标的输入图像110可被输入到对象分类设备100。根据示例,可在将输入图像110输入到对象分类设备100之前对输入图像110执行图像预处理。图像预处理可包括将输入图像110变换为用于检测对象的更合适的形式的一个或多个处理。图像预处理可包括例如调整输入图像110的尺寸/分辨率、旋转输入图像110、去除噪声、调整对比度、校正失真、去模糊、裁剪等。当图像预处理被执行时,通过图像预处理获得的输入图像110可被输入到对象分类设备100。
对象分类设备100可通过执行作为对象分类模型进行操作的神经网络(例如,图3的神经网络320或图5和图6的神经网络520)来对输入图像110中的对象进行分类。神经网络可基于训练数据被预先训练,并且可通过非线性映射在对象分类中提供大的辨别能力。神经网络可包括多个层。这些层可包括输入层、至少一个隐藏层和输出层。例如,深度神经网络可包括被施加输入数据的输入层、用于输出通过基于训练和输入数据的预测得出的结果的输出层、以及用于在输入层与输出层之间执行神经网络操作的多个隐藏层。
例如,对象识别或对象分类的技术自动化已经通过作为专用计算架构的处理器实现的神经网络模型来实现,神经网络模型在大量训练之后,可提供输入模式与输出模式之间的计算上直观的映射或输入模式的模式识别。生成这样的映射或执行这样的模式识别的训练的能力可被称为神经网络的学习能力。这样的训练的能力也可使专用计算架构能够将这样的输入模式或输入模式的一部分分类为属于一个或多个预定的组的成员。此外,由于专门的训练,这样专门训练的神经网络可因此具有例如针对神经网络可能没有针对其被训练的输入模式来生成相对准确或可靠的输出的泛化能力。
神经网络可基于深度学习来映射处于非线性关系的输入和输出,以执行对象识别、对象分类等。深度学习是用于根据大数据集解决提供的问题的机器学习方案。深度学习是包括找到表示神经网络的结构的模型或权重的对神经网络进行优化的处理。
神经网络可以是深度神经网络(DNN)(例如,卷积神经网络(CNN))。在这样的示例中,DNN可以是全连接网络、卷积神经网络、循环神经网络等中的一个或多个,或者可根据用于处理信息的算法包括分别具有这样的全连接、卷积连接或循环连接的不同的或重叠的神经网络部分。
然而,对象分类设备100使用的神经网络的示例不限于前述示例。例如,其他结构的神经网络也可用作对象分类模型,而没有限制。在下文中,为了便于描述,将主要描述CNN作为神经网络的示例。
CNN可适合于处理二维(2D)数据(诸如,输入图像110)。CNN可包括卷积层、池化层和全连接层。通过在每个层中执行的操作,CNN可从输入到对象分类模型的输入图像110提取特征数据,或者提供对象分类结果。在此描述的对象分类结果可表示对输入图像中的对象进行分类的结果。
CNN可执行输入图与权重核之间的卷积运算,以处理2D数据。然而,在具有有限资源的环境(诸如,以移动终端为例)中,执行这样的卷积运算会消耗大量资源和相对长的处理时间。通常,在移动终端中执行的对象分类可能需要能够在具有有限资源的环境中进行操作,并且可能需要能够提供高水平的对象分类性能。在一个示例中,在移动装置或传感器中操作的常开面部存在检测或防欺骗功能可能需要能够仅使用有限的存储器和低功率进行操作。为了满足这样的特征,可使用低分辨率输入图像和具有相对较少参数的轻量级神经网络。尽管使用低分辨率输入图像和轻量级神经网络可减少存储器/功耗和计算量,但是准确性可能被降低。为了解决上述问题,可能需要使用更少资源但具有高准确水平的对象分类方法。
另外,当执行神经网络以提取用于对象分类的特征数据时,输入图像的局部信息可能通过神经网络的多个层而被逐渐丢失。当神经网络的尺寸极小时,这种特性可更清楚地表现出来。执行这样的轻量级神经网络对于将对象分类应用于移动装置或传感器是更有益的。因此,使用更少的资源对局部信息进行编码并提高对象分类的准确性也可能是有益的。
由在此描述的对象分类设备100执行的对象分类方法可通过经由将输入图像110的全局信息和局部信息合并来执行对象分类,来满足前述方面。对象分类设备100可将对应于全局信息的特征数据(例如,全局特征向量或类向量)和对应于局部信息的特征数据合并,并且基于合并的特征数据执行对象分类。通过该对象分类方法,对象分类设备100可通过执行轻量级神经网络来获得对象分类的高准确性。使用其中对应于全局信息的特征数据和对应于局部信息的特征数据被合并的合并的特征数据,对象分类设备100可在使存储器使用、功耗和计算量的增加最小化的同时提高准确性。可通过神经网络提取对应于全局信息的特征数据和对应于局部信息的特征数据。
在下文中,将详细描述由对象分类设备100执行的对象分类方法。
图2示出对象分类方法的示例。在下文中将参照图2描述的对象分类方法的操作可由对象分类设备(例如,上面参照图1描述的对象分类设备100或稍后将参照图7描述的对象分类设备700)执行。图2中的操作可以以所示的顺序和方式来执行,但是在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的次序或者省略一些操作。图2中示出的许多操作可并行或同时被执行。图2的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机或者专用硬件和计算机指令的组合来实现。除了下面的图2的描述之外,图1的描述也适用于图2,并且通过引用包含于此。因此,这里可不重复上面的描述。
参照图2,在操作210中,对象分类设备100可接收输入图像110。输入图像110可以是要被执行对象识别和对象分类的目标图像。
在操作220中,对象分类设备可存储由神经网络的第一特征提取层提取的第一特征数据,神经网络被配置为提取输入图像的特征。神经网络可包括多个特征提取层,并且多个特征提取层可具有层级结构(hierarchical structure)。在此使用的术语“特征数据”可对应于特征向量、特征图、激活数据或激活图。
在操作230中,对象分类设备100可从第二特征提取层获得第二特征数据,第二特征提取层是第一特征提取层的上层(upper layer)。在一个示例中,第一特征提取层的“上层”可表示包括在神经网络中的多个特征提取层之中的在第一特征提取层之后的层。类似的,第一特征提取层的“下层”可表示包括在神经网络中的多个特征提取层之中的在第一特征提取层之前的层。在一个示例中,第二特征提取层可以是包括在神经网络中的多个特征提取层之中的最上面的特征提取层(例如,包括在神经网络中的多个特征提取层之中的最后的特征提取层)。第一特征数据可包括输入图像的局部特征,第二特征数据可包括输入图像的全局特征。
在操作240中,对象分类设备可通过将第一特征数据和第二特征数据合并来生成合并的特征数据。在一个示例中,对象分类设备可基于对应于第一特征数据的特征图和对应于第二特征数据的特征向量之间的内积,执行特征数据的合并。
在一个示例中,当生成合并的特征数据时,对象分类设备可应用权重。对象分类设备可确定将应用于第一特征数据的权重,并且将确定的权重应用于第一特征数据以确定应用了权重的第一特征数据。在这个示例中,对象分类设备可通过将第二特征数据和应用了权重的第一特征数据合并,生成合并的特征数据。
当生成合并的特征数据时,对象分类设备可对第二特征数据进行转换,使得转换后的第二特征数据的维度对应于第一特征数据的维度,并且通过将转换后的第二特征数据和第一特征数据合并,来生成合并的特征数据。随后,对象分类设备可对合并的特征数据进行转换,使得转换后的合并的特征数据的维度对应于第二特征数据的维度。
在操作250中,对象分类设备可基于合并的特征数据来确定对输入图像中的对象进行分类的结果。对象分类设备可基于分类器来确定这个对象分类结果,该分类器被训练为基于输入的合并的特征数据来输出对象分类结果。
在一个示例中,对象分类设备可存储与从多个特征提取层输出的局部特征对应的多组特征数据,并且顺序地将对应于全局特征的特征数据和对应于局部特征的多组特征数据合并。在一个示例中,对象分类设备可通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据,然后通过将第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据,第三特征数据由作为第一特征提取层的下层的第三特征提取层提取。对象分类设备可对第一合并的特征数据进行转换,使得转换后的第一合并的特征数据的维度对应于第三特征数据的维度,并且通过将转换后的第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据。对象分类设备可基于第二合并的特征数据来确定对象分类结果。
图3示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
参照图3,对象分类设备(例如,图1的对象分类设备100或图7的对象分类设备700)可通过执行进行特征提取的神经网络320来从输入图像310获得特征数据330。特征数据330可包括输入图像310的全局特征,其对应于在此描述的第二特征数据。可通过神经网络320的主干(backbone)对特征数据330进行编码。
在一个示例中,神经网络320可以是包括卷积层、非线性激活函数层和池化层的CNN。池化层可通过逐渐降低图像的分辨率来减少特征。输入图像310可通过CNN最终被表示为特征数据330。特征数据330可包括输入图像310的全部信息。
神经网络320可包括多个特征提取单元322、324和326,并且相应的特征提取单元322、324和326中的每个可包括多个层(包括例如卷积层、非线性激活函数层和池化层)。特征提取单元322、324和326可对应于卷积单元。在图3的示例中,为了便于描述,神经网络320被示出为包括三个特征提取单元322、324和326。然而,示例不限于此。
特征提取单元322、324和326可具有这样的层级结构:特征提取单元326包括最上面的特征提取层,特征提取单元322包括最下面的特征提取层。可从特征提取单元322、324和326中的每个提取局部特征数据,并且可存储提取的局部特征数据。例如,提取的局部特征数据可以是特征图。在一个示例中,可从特征提取单元322提取第一特征图,可从特征提取单元324提取第二特征图,并且可从特征提取单元326提取第N特征图。可通过对从特征提取单元326提取的特征数据应用平均池化来从神经网络320获得与全局特征数据对应的特征数据330。
对象分类设备可在将特征数据330从神经网络320的分层的特征提取结构的上层传递到下层的同时,对从特征提取单元322、324和326提取的局部特征数据进行合并。对象分类设备可从特征数据330开始对先前获得的多组局部特征数据之中的与特征数据330相关联的局部特征数据进行合并。可在下降到下部特征提取层的同时重复地执行对局部特征数据进行的处理。
下面将详细描述这样的合并处理。在合并单元340中,可将特征数据330和由特征提取单元326提取的特征数据合并。另外,在操作344中,可基于特征数据330和由特征提取单元326提取的特征数据来确定权重(或注意力,attention),并且可将确定的权重应用于由特征提取单元326提取的特征数据。在操作346中,可将特征数据330和应用了权重的加权特征数据合并,由此可生成合并的特征数据。随后,在合并单元350中,可执行数据维度转换352,以将由合并单元340生成的合并的特征数据的数据维度与由特征提取单元324提取的特征数据的数据维度匹配。在操作354中,可基于其数据维度被转换的合并的特征数据和由特征提取单元324提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元324提取的特征数据,并且可执行数据维度转换355,以将应用了权重的加权特征数据的数据维度与由合并单元340生成的合并的特征数据的数据维度匹配。在操作356中,可将通过数据维度转换355获得的特征数据和由合并单元340生成的合并的特征数据合并,并且可生成从由特征提取单元324提取的特征数据更新的合并的特征数据。随后,在合并单元360中,可执行数据维度转换362,以将由合并单元350生成的合并的特征数据的数据维度与由特征提取单元322提取的特征数据的数据维度匹配。在操作364中,可基于具有转换的数据维度的合并的特征数据和由特征提取单元322提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元322提取的特征数据,并且可执行数据维度转换365,以将应用了权重的加权特征数据的数据维度与由合并单元350生成的合并的特征数据的数据维度匹配。在操作366中,可将通过数据维度转换365获得的特征数据和由合并单元350生成的合并的特征数据合并,由此可生成从由特征提取单元322提取的特征数据更新的合并的特征数据。
如上所述,合并单元340、350和360中的每个可将从特征提取单元322、324和326中的每个提取的局部信息(例如,局部特征数据)与图像的特征向量合并,以更新特征向量。可通过交叉注意力特征聚合(cross-attention feature aggregation,CAFA)来确定合并单元340、350和360中的每个中的权重。数据维度转换352、355、362和365可通过全连接层执行,并且在操作346、356和366中执行的合并可对应于特征数据之间的加法运算或求平均运算。然而,示例不限于此。在一个示例中,合并单元340、350和360可通过附加的神经网络来实现。作为通过上层的特征数据与包括局部信息的特征图之间的内积以线性组合的形式合并高度相关的局部信息的处理的CAFA,CAFA可包括计算两组特征数据之间的交叉注意力,并且将交叉注意力应用于特征数据。
当在获得特征数据330之后将局部特征数据与特征数据330合并时,对象分类设备可对多组局部特征数据中的一些或全部进行合并。对象分类设备可根据可用资源状态仅将一些必要的局部特征数据与特征数据330合并。可根据资源状态来调整将被合并的多组局部特征数据的数量。在一个示例中,当存在很少的可用资源时,可将多组局部特征数据中的一些而不是全部与特征数据330合并。相反,当存在足够的可用资源时,可顺序地将全部的多组局部特征数据与特征数据330合并。该合并处理可对应于提取局部特征、提取全局特征然后合并局部特征的双向编码。
对象分类设备可生成其中全局特征数据和局部特征数据被合并的合并的特征数据370,作为前述合并处理的结果。用于合并处理的附加网络的结构可显著小于整个特征提取网络的结构,并且由于在特征提取的中间计算的中间结果值(局部特征数据)被使用,计算量和资源使用的增加可相当低。
合并的特征数据370可被输入到分类器380,并且分类器380可基于输入的合并的特征数据370来预测出现在输入图像310中的对象的类或标签。分类器380可以是被训练为基于输入数据确定对象分类结果的神经网络。分类器380可以是例如多层感知器(MLP)神经网络,但是分类器380的示例不限于此。在一个示例中,实现分类器380的神经网络和提取输入图像310的特征的神经网络320可单独存在,或者可被实现为单个神经网络。
对象分类设备可基于包括如上所述编码的全局信息和局部信息的合并的特征数据370来执行对象分类。为了补偿包括可能来自轻量级神经网络320的全局信息的特征数据330的局部信息的丢失,对象分类设备可附加地将相关的局部信息与特征数据330合并,从而可提高对象分类的准确性。
图4示出对象分类方法的示例。在下文中将参照图4描述的对象分类方法的操作可由对象分类设备(例如,上面参照图1描述的对象分类设备100或稍后将参照图7描述的对象分类设备700)执行。图4中的操作可以以所示的顺序和方式来执行,但是在不脱离描述的说明性示例的精神和范围的情况下,可改变一些操作的次序或者省略一些操作。图4中示出的许多操作可并行或同时被执行。图4的一个或多个框以及框的组合可由执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。除了下面的图4的描述之外,图1至图3的描述也适用于图4,并且通过引用包含于此。因此,这里可不再重复上面的描述。
参照图4,在操作410中,对象分类设备可接收输入图像,输入图像是要被执行对象分类的目标图像。
在操作420中,对象分类设备可存储由被配置为提取输入图像的特征的神经网络的特征提取层提取的特征数据。对象分类设备可在通过神经网络的特征提取层提取特征数据的同时存储由神经网络的每个特征提取层提取的特征数据。
在操作430中,对象分类设备可通过将特征数据和对应于输入图像的类向量数据合并,来生成合并的特征数据。对象分类设备可通过顺序地将类向量数据和由特征提取层提取的特征数据合并来生成合并的特征数据。
在一个示例中,对象分类设备可从输入图像中的对象的多个候选类中选择一个或多个候选类,并且将所选择的一个或多个候选类的类向量数据与特征数据合并以生成合并的特征数据。在一个示例中,对象分类设备可从对象的候选类中选择具有高概率的前N个候选类(N是在从1到候选类的总数的范围内的自然数)。
生成合并的特征数据的步骤可包括:对类向量数据进行转换使得转换后的类向量数据的维度对应于特征数据的维度,以及将特征数据和转换后的类向量数据合并以生成合并的特征数据。稍后将参照图5详细描述操作430。
在操作440中,对象分类设备可基于合并的特征数据来确定对输入图像中的对象进行分类的结果。对象分类设备可基于分类器来确定这样的对象分类结果,分类器被训练为基于输入的合并的特征数据来输出对象分类结果。
图5示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
参照图5,对象分类设备可通过将局部信息与类标记(class token)530合并来生成合并的特征数据,并且可基于生成的合并的特征数据来确定输入图像510的对象分类结果。类标记530可以是可被学习的参数或向量数据,并且可对应于类向量或分类标记。类标记530可以是在神经网络520的学习(或训练)处理中确定的唯一向量值,并且可具有与输入图像510无关的设置值。
对象分类设备可在将类标记530从神经网络520的分层的特征提取结构的上层向下传递到下层的同时,对从特征提取单元522、524和526中的每个提取的局部特征数据进行合并。尽管为了便于描述,在图5和图6的示例中将神经网络520示出为包括三个特征提取单元522、524和526,但是示例不限于此。
在一个示例中,为了进行合并,在合并单元540中,可将类标记530和由特征提取单元526提取的特征数据合并。在操作544中,可基于类标记530和由特征提取单元526提取的特征数据来确定权重(或注意力),并且可将确定的权重应用于由特征提取单元526提取的特征数据。在操作546中,可将类标记530和应用了权重的加权特征数据合并,由此可生成合并的特征数据。随后,在合并单元550中,可执行数据维度转换552,以将由合并单元540生成的合并的特征数据的数据维度与由特征提取单元524提取的特征数据的数据维度匹配。另外,在操作554中,可基于其数据维度被转换的合并的特征数据和由特征提取单元524提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元524提取的特征数据。另外,可执行数据维度转换555,以将应用了权重的加权特征数据的数据维度与由合并单元540生成的合并的特征数据的数据维度匹配。在操作556中,可将通过执行数据维度转换555获得的特征数据和由合并单元540生成的合并的特征数据合并,由此可生成从由特征提取单元524提取的特征数据更新的合并的特征数据。随后,在合并单元560中,可执行数据维度转换562,以将由合并单元550生成的合并的特征数据的数据维度与由特征提取单元522提取的特征数据的数据维度匹配。另外,在操作564中,可基于其数据维度被转换的合并的特征数据和由特征提取单元522提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元522提取的特征数据。另外,可执行数据维度转换565,以将应用了权重的加权特征数据的数据维度与由合并单元550生成的合并的特征数据的数据维度匹配。在操作566中,可将通过数据维度转换565获得的特征数据和由合并单元550生成的合并的特征数据合并,由此可生成从由特征提取单元522提取的特征数据更新的合并的特征数据570。在一个示例中,合并单元540、550和560可通过附加的神经网络来实现。
对象分类设备可将由特征提取单元522、524和526提取的局部特征数据中的一些或全部与类标记530合并。对象分类设备可根据可用资源状态仅将所需的一些局部特征数据与类标记530合并。
对象分类设备可生成其中全局特征数据和局部特征数据被合并的合并的特征数据570作为合并的结果,并且执行使用合并的特征数据570作为输入的分类器580来预测输入图像510中的对象的类或标签。
图6示出根据一个或多个实施例的执行神经网络进行对象分类的示例。
参照图6,对象分类设备可基于多类向量(multi-class vector)对输入图像510执行对象分类。图6的神经网络520的结构和功能可与图5的神经网络520的结构和功能相同,这里将省略其重复描述。
神经网络520可连接到类选择器610。可对神经网络520的输出执行池化(例如,平均池化或全局平均池化(GAP))操作,并且可将通过池化操作获得的值输入到类选择器610。类选择器610可被实现为多层感知器(MLP)神经网络。
类选择器610可基于输入值从输入图像510中的对象的多个候选类(例如,类1、类2、……、类N)中选择一个或多个候选类,并且输出所选择的候选类。在一个示例中,类选择器610可基于每个候选类的概率值,以最大概率值的顺序选择并输出K个候选类。在这个示例中,K是预定义的正整数。在一个示例中,假设类1和类2(620)被选择为前两个候选类。在这个示例中,对象分类设备可将所选择的类1和类2的类向量数据630与由神经网络520的特征提取单元522、524、526提取的特征数据合并,以生成用于对象分类的合并的特征数据670。
具体地,为了进行合并,在合并单元640中,可将类向量数据630和由特征提取单元526提取的特征数据合并。在操作644中,可基于类向量数据630和由特征提取单元526提取的特征数据来确定权重(或注意力),并且可将确定的权重应用于由特征提取单元526提取的特征数据。在操作646中,可将类向量数据630和应用了权重的加权特征数据合并,由此可生成合并的特征数据。随后,在合并单元650中,可执行数据维度转换652,以将由合并单元640生成的合并的特征数据的数据维度与由特征提取单元524提取的特征数据的数据维度匹配。另外,在操作654中,可基于其数据维度被转换的合并的特征数据和由特征提取单元524提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元524提取的特征数据。另外,可执行数据维度转换655,以将应用了权重的加权特征数据的数据维度与由合并单元640生成的合并的特征数据的数据维度匹配。在操作656中,可将通过数据维度转换655获得的特征数据和由合并单元640生成的合并的特征数据合并,由此可生成从由特征提取单元524提取的特征数据更新的合并的特征数据。在合并单元660中,可执行数据维度转换662,以将由合并单元650生成的合并的特征数据的数据维度与由特征提取单元522提取的特征数据的数据维度匹配。在操作664中,可基于其数据维度被转换的合并的特征数据和由特征提取单元522提取的特征数据来确定权重。可将确定的权重应用于由特征提取单元522提取的特征数据。另外,可执行数据维度转换665,以将应用了权重的加权特征数据的数据维度与由合并单元650生成的合并的特征数据的数据维度匹配。在操作666中,可将通过数据维度转换665获得的特征数据和由合并单元650生成的合并的特征数据合并,由此可生成从由特征提取单元522提取的特征数据更新的合并的特征数据670。在一个示例中,合并单元640、650和660可通过附加的神经网络来实现。
对象分类设备可生成其中全局特征数据和局部特征数据被合并的合并的特征数据670作为合并的结果,并且基于使用合并的特征数据670作为输入的分类器680来预测输入图像510中的对象的类或标签。
图7示出根据一个或多个实施例的对象分类设备的示例。
参照图7,对象分类设备700可以是计算装置,计算装置被配置为检测输入图像中的对象并对检测到的对象进行分类,并且可对应于上面参照图1描述的对象分类设备100。对象分类设备700可执行在此描述的对象分类方法的操作中的一个或多个或全部。
对象分类设备700可包括一个或多个处理器710、一个或多个存储器720和通信装置730,并且还可包括图像拍摄装置740。对象分类设备700的组件可通过通信总线750彼此通信。
处理器710可控制对象分类设备700的总体操作,并且可执行将在对象分类设备700中执行的功能和指令。处理器710可执行上面参照图1至图6描述的操作中的一个或多个。
处理器710可基于由被配置为提取输入图像的特征的神经网络提取的特征数据,对输入图像中的对象进行分类。
在一个示例中,处理器710可存储由神经网络的第一特征提取层提取的第一特征数据,并且从作为第一特征提取层的上层的第二特征提取层获得第二特征数据。第二特征提取层可以是包括在神经网络中的多个特征提取层之中的最上面的特征提取层。处理器710可通过将第一特征数据和第二特征数据合并来生成合并的特征数据。处理器710可基于合并的特征数据和分类器来确定对象分类结果。
当生成合并的特征数据时,处理器710可通过顺序地对多组特征数据进行合并来生成合并的特征数据。在一个示例中,处理器710可通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据,并且通过将第一合并的特征数据和第三特征数据合并,生成第二合并的特征数据,第三特征数据由作为第一特征提取层的下层的第三特征提取层提取。然后,处理器710可基于第二合并的特征数据来确定对象分类结果。
在另一示例中,处理器710可存储由神经网络的特征提取层提取的特征数据,并且通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据。处理器710可存储由神经网络的每个特征提取层提取的特征数据,并且通过顺序地将类向量数据和由特征提取层提取的特征数据合并,生成合并的特征数据。根据示例,处理器710可从输入图像中的对象的多个候选类中选择一个或多个候选类,并且通过将特征数据和所选择的一个或多个候选类的类向量数据合并来生成合并的特征数据。然后,处理器710可基于合并的特征数据和分类器来确定对输入图像中的对象进行分类的结果。
存储器720可存储处理器710执行操作所需的信息。在一个示例中,存储器720可存储可由处理器710执行的指令或程序,并且可存储在软件或程序的执行期间的相关信息。存储器720可包括易失性存储器(诸如,随机存取存储器(RAM)、动态RAM(DRAM)和静态RAM(SRAM))和/或本领域已知的非易失性存储器(诸如,以闪存为例)。
通信装置730可通过有线网络或无线网络与外部装置通信。通过通信装置730,可将输入图像发送到对象分类设备700,或者可将关于对象分类结果的信息发送到对象分类设备700的外部。
根据示例,对象分类设备700还可包括图像拍摄装置740,诸如但不限于相机。仅作为示例,图像拍摄装置740可获得彩色图像、黑白图像、灰度图像、红外图像和深度图像,并且可拍摄作为对象分类的目标的输入图像。
图8示出根据一个或多个实施例的示例电子设备。
参照图8,电子设备800可以是各种形式的电子装置。电子设备800可以是但不限于智能电话、平板计算机、可穿戴装置、上网本、膝上型计算机、产品检验装置、个人计算机(PC)和服务器。
电子设备800可包括一个或多个处理器810、存储装置820、传感器830、输入装置840、输出装置850和通信装置860。电子设备800的组件可通过通信总线870彼此通信。电子设备800可执行对象分类设备(例如,对象分类设备100或图7的对象分类设备700)的操作中的一个或多个或全部。
处理器810可控制电子设备800的总体操作,并且执行将在电子设备800中执行的功能和指令。处理器810可执行上面参照图1至图7描述的操作。
在一个示例中,处理器810可存储由神经网络的第一特征提取层提取的第一特征数据,并且从作为第一特征提取层的上层的第二特征提取层获得第二特征数据,神经网络被配置为提取输入图像的特征。处理器810可通过将第一特征数据和第二特征数据合并来生成合并的特征数据,并且基于生成的合并的特征数据来确定对输入图像中的对象进行分类的结果。
在另一示例中,处理器810可存储由神经网络的特征提取层提取的特征数据,并且通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据。处理器810可基于生成的合并的特征数据来确定对输入图像中的对象进行分类的结果。
存储装置820可存储电子设备800执行操作所需的信息。在一个示例中,存储装置820可存储可由处理器810执行的指令或程序,并且可存储输入/输出数据(例如,分类器和输入图像)。存储装置820可包括RAM、DRAM和SRAM、闪存、硬盘、磁盘、光盘或本领域已知的其他类型的非易失性存储器。
传感器830可包括图像拍摄装置,诸如但不限于图像传感器和视频传感器。图像拍摄装置可获得或拍摄作为对象分类的目标的图像。
仅作为示例,输入装置840可通过触觉、视频、音频或触摸输入从用户接收用户输入。输入装置840可包括例如键盘、鼠标、触摸屏、麦克风或将用户输入发送到电子设备800的任何其他装置。
输出装置850可通过视觉通道、听觉通道或触觉通道向用户提供电子设备800的输出。输出装置850可包括例如用于液晶显示器(LCD)或发光二极管(LED)/有机LED(OLED)显示器的显示面板、触摸屏、扬声器、振动发生器或向用户提供输出的任何其他装置。输出装置850可提供例如关于对输入图像中的对象进行分类的结果的信息。
通信装置860可通过有线网络或无线网络(例如,蜂窝通信、蓝牙通信、短程无线通信、WiFi通信和红外通信)与外部装置通信。通过通信装置860,可将输入图像发送到电子设备800,或者可将关于对输入图像中的对象进行分类的结果的信息发送到电子设备800的外部。
在此关于图1至图8描述的神经网络设备、对象分类设备100、神经网络320、神经网络520、电子设备800以及其他设备、装置、单元、模块和组件被实现为硬件组件并且由硬件组件实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行在本申请中描述的操作的硬件组件中的一个或多个硬件组件。处理器或计算机可由一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或者被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现。在一个示例中,处理器或计算机包括或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作***(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简明,单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但是在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件、或多类型的处理元件、或两者。例如,单个硬件组件、或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可由一个或多个处理器、或者处理器和控制器来实现,并且一个或多个其他硬件组件可由一个或多个其他处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。
图1至图8中示出的执行本申请中描述的操作的方法由计算硬件(例如,由一个或多个处理器或计算机)来执行,计算硬件被实现为如上所述执行指令或软件以执行在本申请中描述的由所述方法执行的操作。例如,单个操作、或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其他操作可由一个或多个其他处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。
用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通技术的程序员可容易地可基于附图中示出的框图和流程图以及说明书中的相应描述编写指令或软件,附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡式存储器(诸如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机,使得处理器或计算机能够执行指令。
虽然本公开包括特定示例,但是在理解本申请的公开之后将清楚的是,在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的相似特征或方面。如果描述的技术以不同的次序被执行,和/或如果描述的***、架构、装置或电路中的组件以不同的方式被组合、和/或由其他组件或其等同物替代或补充,则可实现合适的结果。
因此,公开的范围不是由具体实施方式限定,而是由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化应被解释为被包括在公开中。

Claims (20)

1.一种处理器实现的对象分类方法,包括:
接收输入图像;
存储由神经网络的第一特征提取层提取的第一特征数据,神经网络被配置为提取输入图像的特征;
从第二特征提取层接收第二特征数据,第二特征提取层是第一特征提取层的上层;
通过将第一特征数据和第二特征数据合并来生成合并的特征数据;以及
基于合并的特征数据对输入图像中的对象进行分类。
2.根据权利要求1所述的对象分类方法,其中,第二特征提取层是包括在神经网络中的多个特征提取层之中的最上面的特征提取层。
3.根据权利要求1所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
确定将应用于第一特征数据的权重;
将确定的权重应用于第一特征数据,以生成应用了权重的第一特征数据;以及
通过将第二特征数据和应用了权重的第一特征数据合并来生成合并的特征数据。
4.根据权利要求1所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
通过对应于第一特征数据的特征图与对应于第二特征数据的特征向量之间的内积来执行合并。
5.根据权利要求1所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
对第二特征数据进行转换,使得转换后的第二特征数据的维度对应于第一特征数据的维度;以及
通过将转换后的第二特征数据和第一特征数据合并来生成合并的特征数据。
6.根据权利要求5所述的对象分类方法,其中,生成合并的特征数据的步骤还包括:
对合并的特征数据进行转换,使得转换后的合并的特征数据的维度对应于第二特征数据的维度。
7.根据权利要求1所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据;以及
通过将第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据,第三特征数据由作为第一特征提取层的下层的第三特征提取层提取,
其中,对输入图像中的对象进行分类的步骤包括:
基于第二合并的特征数据对输入图像中的对象进行分类。
8.根据权利要求7所述的对象分类方法,其中,生成第二合并的特征数据的步骤包括:
对第一合并的特征数据进行转换,使得转换后的第一合并的特征数据的维度对应于第三特征数据的维度;以及
通过将转换后的第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据。
9.根据权利要求1至权利要求8中的任一项所述的对象分类方法,其中,第一特征数据包括输入图像的局部特征,第二特征数据包括输入图像的全局特征。
10.一种处理器实现的对象分类方法,包括:
接收输入图像;
存储由神经网络的特征提取层提取的特征数据,神经网络被配置为提取输入图像的特征;
通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据;以及
基于合并的特征数据对输入图像中的对象进行分类。
11.根据权利要求10所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
从接收的输入图像中的对象的多个候选类中选择一个或多个候选类;以及
通过将特征数据和所选择的所述一个或多个候选类的类向量数据合并来生成合并的特征数据。
12.根据权利要求10所述的对象分类方法,其中,存储特征数据的步骤包括:存储由神经网络的每个特征提取层提取的特征数据,
其中,生成合并的特征数据的步骤包括:通过顺序地将类向量数据和由多个特征提取层提取的多组特征数据合并来生成合并的特征数据。
13.根据权利要求10所述的对象分类方法,其中,生成合并的特征数据的步骤包括:
对类向量数据进行转换,使得转换后的类向量数据的维度对应于特征数据的维度;以及
通过将特征数据和转换后的类向量数据合并来生成合并的特征数据。
14.一种存储指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时,配置处理器执行根据权利要求1至权利要求13中的任一项所述的对象分类方法。
15.一种执行神经网络的对象分类设备,所述对象分类设备包括:
一个或多个处理器,被配置为:
接收输入图像;
存储由神经网络的第一特征提取层提取的第一特征数据;
从第二特征提取层接收第二特征数据,第二特征提取层是第一特征提取层的上层;
通过将第一特征数据和第二特征数据合并来生成合并的特征数据;以及
基于合并的特征数据对输入图像中的对象进行分类。
16.根据权利要求15所述的对象分类设备,其中,第二特征提取层是包括在神经网络中的多个特征提取层之中的最上面的特征提取层。
17.根据权利要求15或16所述的对象分类设备,其中,处理器还被配置为:
通过将第一特征数据和第二特征数据合并来生成第一合并的特征数据;
通过将第一合并的特征数据和第三特征数据合并来生成第二合并的特征数据,第三特征数据从作为第一特征提取层的下层的第三特征提取层提取;以及
基于第二合并的特征数据对对象进行分类。
18.一种执行神经网络的对象分类设备,所述对象分类设备包括:
一个或多个处理器,被配置为:
接收输入图像;
存储由神经网络的特征提取层提取的特征数据;
通过将特征数据和对应于输入图像的类向量数据合并来生成合并的特征数据;以及
基于合并的特征数据对输入图像中的对象进行分类。
19.根据权利要求18所述的对象分类设备,其中,处理器还被配置为:
从输入图像中的对象的多个候选类中选择一个或多个候选类;以及
通过将特征数据和所选择的所述一个或多个候选类的类向量数据合并来生成合并的特征数据。
20.根据权利要求18所述的对象分类设备,其中,处理器还被配置为:
存储由神经网络的每个特征提取层提取的特征数据;以及
通过顺序地将类向量数据和由神经网络的特征提取层提取的多组特征数据合并来生成合并的特征数据。
CN202210279284.7A 2021-09-24 2022-03-21 对象分类方法和设备 Pending CN115861675A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0126062 2021-09-24
KR1020210126062A KR20230043318A (ko) 2021-09-24 2021-09-24 영상 내 객체를 분류하는 객체 분류 방법 및 장치

Publications (1)

Publication Number Publication Date
CN115861675A true CN115861675A (zh) 2023-03-28

Family

ID=81454689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279284.7A Pending CN115861675A (zh) 2021-09-24 2022-03-21 对象分类方法和设备

Country Status (4)

Country Link
US (1) US11989931B2 (zh)
EP (1) EP4156123A1 (zh)
KR (1) KR20230043318A (zh)
CN (1) CN115861675A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220065209A (ko) * 2020-11-13 2022-05-20 삼성전자주식회사 다양한 품질의 영상을 인식하는 방법 및 장치
KR20230043318A (ko) * 2021-09-24 2023-03-31 삼성전자주식회사 영상 내 객체를 분류하는 객체 분류 방법 및 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101109023B1 (ko) 2003-04-14 2012-01-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
WO2006053271A1 (en) 2004-11-12 2006-05-18 Mok3, Inc. Method for inter-scene transitions
US8763114B2 (en) 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
KR100924690B1 (ko) 2007-12-17 2009-11-03 한국전자통신연구원 디지털 영상 특징 관리 시스템 및 그 방법
JP5746766B2 (ja) 2010-08-02 2015-07-08 ペキン ユニバーシティ 効果的なビデオの分類および検索のための典型的モーションフローの抽出
US8711248B2 (en) 2011-02-25 2014-04-29 Microsoft Corporation Global alignment for high-dynamic range image generation
EP2608062A1 (en) 2011-12-23 2013-06-26 Thomson Licensing Method of automatic management of images in a collection of images and corresponding device
KR101479225B1 (ko) 2014-02-26 2015-01-05 연세대학교 산학협력단 특징 벡터 생성 방법 및 그 장치, 이를 이용한 영상 인식 방법 및 장치
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9665927B2 (en) 2015-06-03 2017-05-30 Samsung Electronics Co., Ltd. Method and apparatus of multi-frame super resolution robust to local and global motion
US11423323B2 (en) * 2015-09-02 2022-08-23 Qualcomm Incorporated Generating a sparse feature vector for classification
US10002313B2 (en) 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
GB201818948D0 (en) 2018-11-21 2019-01-09 Yoti Holding Ltd Age estimation
KR20200101514A (ko) 2019-01-30 2020-08-28 한국전력공사 딥 러닝을 이용한 객체 검출 시스템
US20220172378A1 (en) * 2019-04-03 2022-06-02 Nec Corporation Image processing apparatus, image processing method and non-transitory computer readable medium
KR102249663B1 (ko) 2019-04-10 2021-05-10 한국과학기술연구원 귀 인식 기반 신원확인 방법 및 시스템
CN110309856A (zh) * 2019-05-30 2019-10-08 华为技术有限公司 图像分类方法、神经网络的训练方法及装置
JP7453767B2 (ja) * 2019-09-25 2024-03-21 キヤノン株式会社 情報処理装置、情報処理方法
KR20230043318A (ko) * 2021-09-24 2023-03-31 삼성전자주식회사 영상 내 객체를 분류하는 객체 분류 방법 및 장치

Also Published As

Publication number Publication date
US20230095716A1 (en) 2023-03-30
US11989931B2 (en) 2024-05-21
KR20230043318A (ko) 2023-03-31
EP4156123A1 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
US11557085B2 (en) Neural network processing for multi-object 3D modeling
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
US9786036B2 (en) Reducing image resolution in deep convolutional networks
Basly et al. CNN-SVM learning approach based human activity recognition
US20180114071A1 (en) Method for analysing media content
US20230021661A1 (en) Forgery detection of face image
Wang et al. Tree leaves detection based on deep learning
US11403878B2 (en) Apparatus and method with user verification
CN115861675A (zh) 对象分类方法和设备
US11816876B2 (en) Detection of moment of perception
US20200202199A1 (en) Neural network processing method and apparatus based on nested bit representation
US10438088B2 (en) Visual-saliency driven scene description
US20220253642A1 (en) Burst image-based image restoration method and apparatus
US20230222781A1 (en) Method and apparatus with object recognition
US11189015B2 (en) Method and apparatus for acquiring feature data from low-bit image
Bayoudh et al. An attention-based hybrid 2D/3D CNN-LSTM for human action recognition
Muhammad et al. Domain generalization via ensemble stacking for face presentation attack detection
US11715216B2 (en) Method and apparatus with object tracking
CN116152082A (zh) 用于图像去模糊的方法和设备
US20210397819A1 (en) Object recognition method and object recognition apparatus
US20240273884A1 (en) Method and apparatus with object classification
US20230143874A1 (en) Method and apparatus with recognition model training
Vinay et al. Face Recognition using Invariant Feature Vectors and Ensemble of Classifiers
Alsarhan et al. Collaborative Positional-Motion Excitation Module for Efficient Action Recognition
Vandersteegen et al. Person Detection Using an Ultra Low-Resolution Thermal Imager on a Low-Cost MCU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination