CN108780507A

CN108780507A - 用于提供图像分类器的***和方法

Info

Publication number: CN108780507A
Application number: CN201680079255.9A
Authority: CN
Inventors: D·莫洛尼; A·德加尼
Original assignee: Linear Algebra Technologies Ltd
Current assignee: Movidius Co Ltd
Priority date: 2015-12-17
Filing date: 2016-12-15
Publication date: 2018-11-09
Anticipated expiration: 2036-12-15
Also published as: EP3391289A1; US20190340464A1; DE112016005776T5; WO2017103676A1; US11037020B2; CN108780507B; US20210374464A1; US10248884B2; US11600059B2; CN114612978A; US9639777B1; US20170277972A1

Abstract

提供了用于使用定向梯度直方图(HoG)与训练器结合进行图像分类的***和方法。通过首先建立将HoG窗口中的像素子集识别为包括相关的前景信息的位图，并且将HoG计算和比较过程限制为仅包括在位图中的像素，大大增加了过程的效率。

Description

用于提供图像分类器的***和方法

技术领域

本申请总体上涉及计算机视觉处理，并且更具体地涉及高效图像分类。

背景技术

计算机视觉领域通常要求被训练用于检测诸如面部和人之类的对象的分类器，考虑到实现与人和真实世界对象交互的应用。存在各种分类器，因为计算机视觉研究人员一直在寻求更加资源高效的方法来准确定位和识别图像中的各种对象。

图1中所描述的一种识别特定类的对象的已知方法使用定向梯度直方图(HoG)与训练图像和学习***结合。HoG已被用于针对各种背景来检测人类，以及面部、动物、车辆和其他对象。由于HoG使用相对紧凑的参考描述符，因此其已成功用于实时分类流视频中的对象。它也被证明能够在存在旋转、缩放和照明条件方面变化的情况下实现鲁棒检测。

图1示出了本领域已知用于使用HoG与支持向量机(SVM)算法结合——在本领域合适地称为HoG/SVM——对图像中的对象进行分类的过程100。所描述的过程使用由Dalal和Triggs在其2005年所著的以下文章中识别的参数：“Histograms of oriented gradientsfor human detection，International Conference on Computer Vision and PatternRecognition，第2卷，第886-893页，2005年6月，其通过引用整体并入本文。

首先，针对特定单元内的每个像素计算梯度值(图1中的步骤102)。如示出该过程的图2所示，将所定义的矩形HoG检测窗口202应用于图像的一部分，这将像素划分为离散单元204。例如，HoG单元204可以包括在每一侧上8个像素，总计每个单元204有64(8乘8)个像素，但是在一些实现方式中可以选择更大或更小的单元尺寸。对于每个单元204，计算梯度的幅值和取向。可以应用各种滤波器来计算这些值。例如，作为一个实现方式，梯度的幅值|G|可以根据其相邻像素的强度值给出：

|G|＝|G_x|+|G_y|＝|G_x+1-G_x-1|+|G_y+1–G_y-1|。

并且，取向θ可以根据水平强度x和垂直强度y的正切给出：

θ＝arctan(|G_y+1–G_y-1|/|G_x+1-G_x-1|)

为了创建直方图，取向角θ被分解成若干个区间(bin)。在这个示例中，0°到180°的范围被分解成9个区间，每个区间为20°。将每个强度值|G|添加到与其取向角θ相关联的区间中(图1中的步骤104)。所得到的HoG单元描述符(如图2中的206所示)具有9个值，每个值的最小值为零并且最大值为最大像素强度值的128倍。

然后基于四个单元的每个2乘2区块208，将单元描述符206中的每个聚合为区块描述符210(图1中的步骤106)。因为使用单元的每个区块208，所以不在窗口202的边缘上的单元204将出现在四个不同的区块208中，并且因此其描述符206将包括在四个不同的区块描述符212中。

根据该区块中的描述符对每个区块描述符210进行归一化(图1中的步骤108)，每个区块描述符210包括区块208中的四个单元204中的每个单元的描述符206。可以使用各种归一化算法，其中许多在上面引用的Dalal和Triggs于2005年所著的文章中进行讨论。该过程的结果是针对每个区块208的归一化区块描述符212，即表示每个区块36个数据元素的一组直方图数据。因为归一化取决于特定区块描述符210中的四个描述符206的值，所以与特定单元206相关联的归一化值在包括该单元的每个归一化区块描述符212中可以不同。

对于64乘128像素窗口202，表示归一化区块描述符212的完整HoG描述符214包括105个归一化直方图数据区块：总计3780个数据值。该完整描述符214被馈送到先前根据相同参数来评估训练图像的SVM分类器(图1中的步骤110)。训练图像可以是针对被评估对象的训练数据的任何适当集合，例如，Dalal和Triggs于2005年所著的文章中描述的MIT和INRIA图像数据集。可以使用其他公开可用或专有的训练图像。

通过重复地在所示示例中跨64个像素宽乘128个像素高的窗口步进、跨源图像帧并且如前一部分阐述地计算HoG描述符来执行HoG计算。由于HoG计算不包含内在的比例感，并且对象可以在图像内以多个比例出现，因此HoG计算跨比例金字塔的每个级别步进，并且跨比例金字塔的每个级别重复。

图3示出了跨比例金字塔306的每个级别304步进的窗口302。每个级别304表示正被扫描的图像的进一步缩小的副本。比例金字塔中的每个级别之间在一个级别与下一级别之间的缩放因子通常是1.05或1.2。图像被重复缩小，直到缩放后的源帧不再能够容纳完整的HoG窗口。

缩放金字塔中像素数量的闭合形式由基于s的表达式给出。s是比例金字塔中像素总数的比例乘数：

α是金字塔级别之间使用的缩放因子。m＝log(W/H)/log(α)，其中W和H是相应的输入图像/视频帧的宽度和高度。因此，在比例金字塔中要考虑的像素总数是s*W*H。

如图2中可以看出并且在上面的计算中示出的，针对图像中7乘15 4乘4区块中的每个使用9D直方图的***的HoG描述符针对在即将到来的图像中进行检查的每个64乘128窗口产生3.78kB描述符。

用于训练这种分类器的图像典型地是矩形的，作为用于捕获图像的2D图像传感器阵列的副产物。除此之外，简单地跨矩形源图像步进矩形描述符并求卷积来检测匹配，并且很容易了解为什么该范例已经扎根。虽然一些对象(例如，家具)可能事实上是正方形或矩形的，但大多数在分类中感兴趣的对象不易于用简单的几何形状来表示。因此，矩形参考图像与这些对象的匹配较差。事实上，使用矩形参考图像意味着必须进行大量的附加工作来对与匹配任务无关的像素求卷积，并且此外这些像素意味着感兴趣对象周围的背景中的一些被混叠到用于匹配图像的描述符中，从而混淆和降低匹配操作的准确性。

每个HoG数据集的计算成本非常高。Dziri、Chevobbe和Darouich在其2013年所著的文章“Gesture recognition on smart camera”，CEA LIST–Embedded ComputingLaboratory，2013年中做出了一个估计。例如，将HoG应用于42乘42像素的感兴趣区域需要以下操作：11664次加法、1296次乘法、5200次除法、16次平方根和5184次反正切。该计算需要许多昂贵且复杂的数学运算，例如，除法、平方根和反正切，这需要多个周期来以软件在传统顺序处理器上实现。计算还需要大量更常见的数学运算，如加法和乘法，这些运算典型地在一个时钟周期那么短内执行。计算成本因以下事实而复杂化：通过步进HoG模板来执行蛮力搜索以在整个图像上进行比较取决于输入图像的分辨率而在计算上更昂贵。此外，在可能在一定距离范围处看到对象的场景中，通常需要搜索不同大小的候选窗口，这进一步增加计算成本。

HoG/SVM是非常昂贵的操作。从改变比例因子到修改HoG窗口跨缩放后的源图像步进的区块大小的许多优化都可以用来修整搜索空间，从而限制计算工作量。这些因素相结合意味着鲁棒的实时HoG仅限于非常高规格的桌面***，这些桌面***经常会将计算卸载到高性能通用处理单元(GPU)。这使得功率成本远远超出了诸如手机、平板电脑和移动机器人之类的移动设备的界限。

虽然可能对输入图像进行子采样并对移动平台执行一系列优化，但是这在匹配精度方面经常会带来巨大的损失，导致移动实现方式的实用性非常有限。尽管如此，需要进一步优化以限制HoG过程的计算花费。

发明内容

根据所公开的主题，提供了用于使用HoG与训练器结合进行图像分类的***和方法。通过首先建立将HoG窗口中的像素子集识别为包括相关的前景信息的位图，并且将HoG计算和比较过程限制为仅包括在位图中的像素，大大增加了过程的效率。

所公开的实施例包括一种用于图像分类的计算机实现的方法。该方法包括：根据一组训练图像生成表示图像窗口的相关部分的非矩形轮廓；根据轮廓生成识别少于矩形检测窗口内所有单元的非矩形位图，矩形检测窗口具有预确定的单元宽度和预确定的单元高度；接收用于分类的图像，图像包括一单元宽度和一单元高度；将矩形检测窗口应用于图像中的具有矩形检测窗口的单元宽度和单元高度的部分，其中，应用检测窗口包括识别图像部分内的与非矩形位图的已识别单元匹配的单元；针对图像部分内的已识别单元中的每个已识别单元，生成单元内的像素的取向的直方图；建立重叠的单元区块，每个单元区块具有来自图像部分的多个连续的已识别单元；针对每个单元区块生成描述符，描述符包括单元区块中的已识别单元中的每个已识别单元的直方图，其中，描述符内的每个直方图被归一化到描述符内的所有直方图；以及针对该组训练图像评估所生成的描述符，以便确定是否将图像部分识别为包括与该组训练图像相关联的对象类别。

在一些实施例中，该方法还包括：将图像重新缩放到不同的单元宽度和不同的单元高度；以及将矩形检测窗口应用于所重新缩放的图像中的具有矩形检测窗口的单元宽度和单元高度的部分。

在一些实施例中，该方法还包括通过以下中的一个来生成非矩形轮廓：对该组训练图像取平均，应用计算机视觉算法，或者应用深度学习，以确定图像窗口的相关部分。

在一些实施例中，该方法还包括通过以下操作来生成非矩形轮廓：针对来自该组训练图像的每个训练图像确定每个位置中所有像素的强度值；使针对来自该组训练图像的每个位置的所有像素的强度值相加以生成结果值；以及使针对来自该组训练图像的每个位置的结果值除以来自该组训练图像的训练图像的数量。

在一些实施例中，该方法还包括通过以下步骤来针对图像部分内的已识别单元中的每个已识别单元生成单元内的像素的取向的直方图：计算梯度，每个梯度具有幅值和对应取向；将每个对应取向与多个区间中的一个区间进行关联；以及将每个幅值添加到多个区间中的与对应取向相关联的一个区间。

在一些实施例中，该方法还包括将每个单元区块提供为来自图像部分的二乘二的连续的已识别单元。

在一些实施例中，该方法还包括通过级联单元区块中的已识别单元中的每个已识别单元的直方图来针对每个单元区块生成描述符。

在一些实施例中，该方法还包括确定该对象类别是以下中的一个：人；面部；非矩形几何形状；或者非几何形状。

所公开的实施例包括一种用于图像分类的计算设备。该计算设备包括存储器，该存储器被配置为存储：一组训练图像；表示来自该组训练图像的图像窗口的相关部分的非矩形轮廓；以及识别少于矩形检测窗口内所有单元的非矩形位图，矩形检测窗口具有预确定的单元宽度和预确定的单元高度。该计算设备还包括耦合到存储器的硬件加速器，该硬件加速器被配置为：接收用于分类的图像作为输入，图像包括一单元宽度和一单元高度；通过识别图像部分内的与非矩形位图的已识别单元匹配的单元，将所存储的矩形检测窗口应用于图像中的具有矩形检测窗口的单元宽度和单元高度的部分；针对图像部分内的已识别单元中的每个已识别单元，生成并存储单元内的像素的取向的直方图；以及建立重叠的单元区块，每个单元区块具有来自图像部分的多个连续的已识别单元。该计算设备还包括耦合到硬件加速器和存储器的处理器，该处理器被配置为：针对每个单元区块生成描述符，描述符包括单元区块中的已识别单元中的每个已识别单元的直方图，其中，描述符内的每个直方图被归一化到描述符内的所有直方图；以及针对所存储的一组训练图像评估所生成的描述符，以便确定是否将图像部分识别为包括与该组训练图像相关联的对象类别。存储器、硬件加速器和/或处理器还可以被配置为执行关于上述实施例中的任一个描述的步骤中的任何和全部步骤。

所公开的实施例包括一种非暂时性计算机可读介质。该非暂时性计算机可读介质具有可执行指令，该可执行指令可操作以使数据处理装置进行以下操作：根据一组训练图像生成表示图像窗口的相关部分的非矩形轮廓；根据轮廓生成识别少于矩形检测窗口内所有单元的非矩形位图，矩形检测窗口具有预确定的单元宽度和预确定的单元高度；接收用于分类的图像，图像包括一单元宽度和一单元高度；通过识别图像部分内的与非矩形位图的已识别单元匹配的单元，将矩形检测窗口应用于图像中的具有矩形检测窗口的单元宽度和单元高度的部分；针对图像部分内的已识别单元中的每个已识别单元，生成单元内的像素的取向的直方图；建立重叠的单元区块，每个单元区块具有来自图像部分的多个连续的已识别单元；针对每个单元区块生成描述符，描述符包括单元区块中的已识别单元中的每个已识别单元的直方图，其中，描述符内的每个直方图被归一化到描述符内的所有直方图；以及针对该组训练图像评估所生成的描述符，以便确定是否将图像部分识别为包括与该组训练图像相关联的对象类别。该可执行指令可以进一步可操作以使数据处理装置执行关于上述实施例中的任一个描述的步骤中的任何和全部步骤。

现在将参考附图中所示的本发明的特定实施例来更详细地描述本发明。尽管下文参考特定实施例描述了本公开内容，但是应理解，本公开内容不限于此。可以获得本文的教导的本领域普通技术人员将认识到在如本文中所描述的本公开内容的范围内并且本公开内容相对其而言可能具有显著实用性的附加实施方式、修改和实施例以及其他使用领域。

附图说明

当结合以下附图考虑时，参考以下对所公开的主题的详细描述，可以更全面地理解所公开的主题的各种目的、特征和优点，在附图中相同的附图标记标识相同的元素。附图是示意图，并且不旨在按比例绘制。为了清楚起见，并非每个组件都标注在每个图中。在说明不是必要的情况下，没有示出所公开的主题的每个实施例中的每个组件，以使得本领域普通技术人员能够理解所公开的主题。

图1是描述如本领域已知的HoG/SVM分类过程的实现方式的流程图。

图2示出了如本领域已知的在缺少位图的情况下实践的HoG/SVM过程的实现方式。

图3示出了如本领域已知的金字塔缩放方案。

图4示出了根据本发明的实施例的通过对一组训练图像取平均而产生的轮廓。

图5示出了根据本发明的实施例的应用位图的bHoG/SVM过程的实现方式。

图6是描述根据本发明的实施例的HoG/SVM分类过程的实现方式的流程图。

图7是描绘根据本发明的实施例配置的硬件的示意图。

图8是描绘根据本发明的实施例配置的硬件的示意图。

图9是描绘根据本发明的实施例配置的硬件的示意图。

图10是描绘根据本发明的实施例的用于典型位图的操作位图调度器的时序图。

图11是描述根据本发明的实施例的HoG/SVM分类过程的实现方式的流程图。

具体实施方式

在下面的说明书中，关于所公开的主题的***和方法以及这些***和方法可以操作的环境等阐述了许多具体细节，以便提供对所公开的主题的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节的情况下实践所公开的主题，并且没有详细描述在本领域中公知的某些特征以便避免使所公开的主题复杂化。另外，应理解，下面提供的示例是示例性的，并且可以设想存在在所公开的主题的范围内的其他***和方法。

本发明利用使用位图的条件处理，该位图对图像的用于训练分类器的那些部分进行编码。位图是通过任何合适的手段导出的。例如，位图可以通过对训练数据集中的图像取平均而导出。作为另一示例，可以使用计算机视觉算法或深度学习来导出位图，以确定图像中待检测对象的位置和范围。这些手段产生对象的轮廓，然后将对象的轮廓阈值化以产生位图。位图还可以考虑在定向梯度直方图(HoG)计算中使用的基础区块结构。

图4示出了具有根据INRIA行人检测图像数据集(关于上面引用的Dalal和Triggs于2005年所著的文章描述的)的平均值生成的轮廓的绘图。该绘图示出了48乘96像素图像400，其被划分成4乘4单元，总共288个单元(48/4乘96/4＝12乘24＝288个4乘4单元)。在288个单元中，仅92个单元包括在通过对数据集中的图像取平均而产生的前景轮廓402中，表示图像的整个区域的32％(92/288)。

前景轮廓可以以任何数量的合适方式生成。例如，可以通过使训练图像内的每个位置中所有像素的强度值相加，并且然后使得到的值除以图像的数量来生成轮廓。下面的文章描述了这个过程可以生成的“平均图像”：Jun-Yan Zhu等人所著的“AverageExplorer：Interactive Exploration and Alignment of Visual Data Collections，”ACMTransactions on Graphics，第33卷，第4期，2014年8月。例如，MATLAB函数imadd()和imdivide()可以用于在数据集上执行这些函数，并且将结果输出到位图文件以供查看。轮廓外形可以基于对数据集逐像素取平均的结果、计算机视觉、深度学习或其他合适的手段或手段组合来自动生成。

然后，将轮廓转换成如图5所示的HoG检测位图500，其中附图标记502-514相对于图2所示的过程类似于上面使用的附图标记202-214。这里，在HoG检测窗口502中包括的原始的128个单元中，仅包括74个单元作为位图500上的前景单元，表示窗口502的总面积的58％(74/128)。此外，在创建直方图数据506时，使用每个为30°的六个取向区间，而不是九个20°的区间，以进一步减小完整的HoG描述符514的总尺寸。虽然覆盖整个检测窗502要求105个重叠的2乘2区块，但是覆盖位图仅要求74个这样的2乘2区块508。

如图5所示，完整的bHoG描述符仅包括1776个总参考值(74乘24-D)，与上述整个HoG描述符相比，描述符的大小减小3倍。通过SVM或另一合适的学习算法将这些描述符与由图4的轮廓400在尺寸上被类似地缩小的参考图像进行比较，产生进一步的效率提高。

通过仅将本图像的相关区域仅与参考图像的相关区域进行比较，可以实现处理成本和复杂度的显著降低。在一个实验示例中，仅使用INRIA图像数据库的不包含背景信息的那些部分来训练bHoG/SVM分类器，并且与以常规方式训练的HoG/SVM分类器进行比较。结果表明，使用上面引用的INRIA图像集进行行人检测减少了75％的工作量。发现了使用由F.Flohr和D.M.Gavrila所著的“PedCut:an iterative framework for pedestriansegmentation combining shape models and multiple data cues”，Proc.of theBritish Machine Vision Conference，Bristol，UK，2013年介绍的Daimler行人分段基准数据集的类似工作量减少。

所示出的结果适用而不考虑较高级别优化，其能够实现以降低搜索空间的维度，并且易于在硬件中加速，导致在硬件加速的bHoG/SVM检测器中潜在的4倍加速，存储器存储、存储器带宽和功耗对应降低4倍。

图6是描述如本文所述的HoG/SVM分类过程的实现方式的流程图。过程600在步骤602处以对图像进行分类开始。将包含具有任意形状轮廓的任意形状位图的检测窗口应用于图像的一部分。例如，将包含具有非矩形轮廓的非矩形位图的矩形检测窗口应用于图像的一部分。检测窗口由单元组成并且具有预确定的单元宽度和预确定的单元高度。位图识别少于常规检测窗口内的所有单元。轮廓以及因此位图可以是任何合适的任意形状，包括任何几何形状(非矩形形状)、非几何形状或几何形状和非几何形状的组合。应用过程仅识别图像部分内的与位图的已识别单元匹配的单元。接下来，在步骤604处，该过程计算图像部分内的已识别单元内的每个像素的梯度值(幅值和取向角)。在步骤606处，该过程然后将取向角分解成合适数量的区间，并且将每个幅值添加到与其取向角相关联的区间中。然后在步骤608处将每个得到的HoG单元描述符聚合成区块描述符。在步骤610处，使用任何合适的归一化算法对每个区块描述符(包括其描述符)进行归一化。然后在步骤110中将所得到的表示归一化区块描述符的完整HoG描述符馈送到SVM分类器中。在图6中，步骤604、606、608、610和612各自执行与上面结合图1中的相应步骤102、104、106、108和110所描述的类似的功能，但是仅针对与对应于该轮廓的位图的已识别单元相对应的数据执行，从而导致如上所述的优化、效率提高以及过程成本和复杂度的降低。

图7示出了如本文所述的用于加速的bHoG计算的可能硬件块700。包括给定单元和所有相邻单元的强度值阵列的输入帧被发送到硬件bHoG加速器702，其包括用于执行如较早描述的用于计算梯度和生成取向区间的所有必要功能的模块。某些模块可以寻址和修改存储在***存储器704中的多个HoG描述符和相关联的位图(即，bHoG描述符)。bHoG/SVM过程的其余步骤(生成描述符区块、区块归一化以及bHoG数据的SVM分类)可以由参考***存储器704中的bHoG描述符的VLIW处理器706执行。

在图8中，示出了用于加速bHoG计算和直方图分区的可能硬件块，其中角度计算被执行并且打包到存储器中用于以软件进行后续直方图分区。整数除法器802使针对每个像素计算的θ角除以与每个直方图区间相关联的度数，以便输出区间号——0和N之间的整数，其中N是直方图区间的数量。然后该输出用于在要在下一时钟边沿更新的直方图区块中从多个累加器804中选择。然后可以经由存储器映射的处理器接口806在bHoG计算的区块的末尾读出这些累加器的内容。

该硬件可以通过添加位图调度器900来扩展，以支持如图9所示的稀疏位图。位图计数器902计数达到max_count限制——位图中对应于所选择的单元大小的位数。计数器的输出是“计数”并且用于从n位位图阵列904中查找在电路操作开始之前经由位图输入加载的位。位图阵列查找904的输出是用于控制HoG计算区块的“HoG-enable”变量以及用于通过使能输出与门906和908来查找存储器中的HoG操作所需像素的“X_adr”输出端和“Y_adr”输出端的输出。通过从查找表910中查找“X_rel”相对地址和“Y_rel”相对地址来生成对这些与门的输入，查找表910在电路开始操作之前经由“lut_data”输入加载。经由一对加法器912和914将“X_rel”地址和“Y_rel”地址加到“X_base”输入和“Y_base”输入。

图10是描绘用于示例性位图1010的操作位图调度器的时序图1000。针对位图1010示出了位流1012，其中表示位图1010的第一行的位在位流1012上标记为第一行1014。时序图1000的对应于第一行1014的部分标记为第一时序部分1002。如图所示，时钟信号“clk”通过发送交替的高信号和低信号作为时钟节拍而用作定时器。在这种上下文中，发送表示不同变量的各种其他信号。最值得注意的是，并且根据图9的框图，如上所述的“HoG_enable”信号用作“X_adr”信号和“Y_adr”信号的掩码。如果“HoG_enable”信号是高值，对应于该位置处“位图”为1值，则“X_adr”信号将是“X_rel”信号和“X_base”信号的总和，并且“Y_adr”信号将是“Y_rel”信号和“Y_base”信号的总和。否则，如果“HoG_enable”信号为低，对应于该位置处“位图”为0值，则“X_adr”信号和“Y_adr”信号也将为低(即，用信号通知零值或无值)。

图11是描述如本文描述的HoG/SVM分类过程的实现方式的流程图。过程1100在步骤1102处开始，其中该过程根据一组训练图像生成表示图像窗口的相关部分的任意形状(例如，非矩形)轮廓。在步骤1104处，该过程根据轮廓生成识别少于矩形检测窗口内所有单元的任意形状(例如，非矩形)位图，该矩形检测窗口具有预确定的单元宽度和预确定的单元高度。在步骤1106处，该过程接收用于分类的图像，该图像包括单元宽度和单元高度。在步骤1108处，该过程将矩形检测窗口应用于图像中的具有矩形检测窗口的单元宽度和单元高度的部分。这包括识别图像部分内的与非矩形位图的已识别单元匹配的单元。在步骤1110处，针对图像部分内的已识别单元中的每个已识别单元，该过程生成单元内的像素的取向的直方图。在步骤1112处，该过程建立重叠的单元区块，每个单元区块具有来自该图像部分的多个连续的已识别单元。在步骤1114处，该过程针对每个单元区块生成描述符，该描述符包括单元区块中的已识别单元中的每个已识别单元的直方图。描述符内的每个直方图被归一化为描述符内的所有直方图。在步骤1116处，该过程针对该组训练图像评估生成的描述符，以便确定是否将该图像部分识别为包括与该组训练图像相关联的对象类别。

为了最小化与位图存储相关联的存储器需求，如果确定为有利，可以使用游程长度编码针对位图的每一行中的游程中的每个游程进行压缩。在这种情况下，将使用硬件和/或软件游程长度解码器来根据游程长度编码版本重构位图。

应该理解的是，尽管本文已经描述了几种不同的布置，但是每种布置的特征可以有利地以各种形式组合在一起以实现优点。

在前述说明书中，已经参考特定示例描述了本申请。然而，显而易见的是，在不脱离如所附权利要求书中阐述的本发明的更宽泛的精神和范围的情况下，可以对其进行各种修改和改变。例如，连接可以是适合于例如经由中间设备从或向相应节点、单元或设备传送信号的任何类型的连接。因此，除非暗示或另外陈述，否则连接可以例如是直接连接或间接连接。

应该理解，本文描绘的架构仅仅是示例性的，并且实际上实现相同功能的许多其他架构可以实现。在抽象的、但仍然确定的意义上，任何实现相同功能的组件的布置都是有效地“关联”的，从而实现期望的功能。因此，本文中进行组合以实现特定功能的任何两个组件可以被视为彼此“关联”，从而实现期望的功能，而与架构或中间组件无关。同样，如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现期望的功能。

此外，本领域技术人员将认识到，上述操作的功能之间的界限仅仅是说明性的。多个操作的功能可以组合成单个操作，和/或单个操作的功能可以分布在附加的操作中。此外，替代实施例可以包括特定操作的多个实例，并且操作的顺序可以在各种其他实施例中改变。

然而，其他修改、变化和替代也是可能的。因此，说明书和附图被认为是说明性的而不是限制性意义的。

在权利要求中，置于括号之间的任何参考符号不应被解释为限制权利要求。词语“包括”不排除权利要求中列出的元素或步骤之外的其他元素或步骤的存在。此外，如本文使用的术语“一”或“一个”被定义为一个或多于一个。而且，在权利要求中使用诸如“至少一个”和“一个或多个”的引入性短语不应被解释为暗示由不定冠词“一”或“一个”引入的另一权利要求元素将包含这种引入的权利要求元素的任何特定权利要求限制于仅包含一个这种元素的发明，即使当相同的权利要求包括引入性短语“一个或多个”或“至少一个”以及诸如“一”或“一个”的不定冠词时。对于定冠词的使用同样如此。除非另外陈述，否则诸如“第一”和“第二”的术语用于任意在这些术语描述的元素之间进行区分。因此，这些术语不一定旨在指示这些元素的时间或其他优先级。仅在相互不同的权利要求中列举某些措施的事实并不指示这些措施的组合不能被有利地使用。

Claims

1.一种用于图像分类的计算机实现的方法，包括：

根据一组训练图像生成表示图像窗口的相关部分的非矩形轮廓；

根据所述轮廓生成识别少于矩形检测窗口内所有单元的非矩形位图，所述矩形检测窗口具有预确定的单元宽度和预确定的单元高度；

接收用于分类的图像，所述图像包括一单元宽度和一单元高度；

将所述矩形检测窗口应用于所述图像中的具有所述矩形检测窗口的所述单元宽度和所述单元高度的部分，其中，应用所述检测窗口包括识别所述图像部分内的与所述非矩形位图的已识别单元匹配的单元；

针对所述图像部分内的所述已识别单元中的每个已识别单元，生成所述单元内的像素的取向的直方图；

建立重叠的单元区块，每个单元区块具有来自所述图像部分的多个连续的已识别单元；

针对每个单元区块生成描述符，所述描述符包括所述单元区块中的所述已识别单元中的每个已识别单元的直方图，其中，所述描述符内的每个直方图被归一化到所述描述符内的所有直方图；以及

针对所述一组训练图像评估所生成的描述符，以便确定是否将所述图像部分识别为包括与所述一组训练图像相关联的对象类别。

2.根据权利要求1所述的方法，还包括：

将所述图像重新缩放到不同的单元宽度和不同的单元高度；以及

将所述矩形检测窗口应用于所重新缩放的图像中的具有所述矩形检测窗口的所述单元宽度和所述单元高度的部分。

3.根据权利要求1所述的方法，其中，生成所述非矩形轮廓包括一个或者：对所述一组训练图像取平均，应用计算机视觉算法，或者应用深度学习，以确定所述图像窗口的相关部分。

4.根据权利要求1所述的方法，其中，生成所述非矩形轮廓包括：

针对来自所述一组训练图像的每个训练图像确定每个位置中所有像素的强度值；

使针对来自所述一组训练图像的每个位置的所述所有像素的强度值相加以生成结果值；以及

使针对来自所述一组训练图像的每个位置的所述结果值除以来自所述一组训练图像的训练图像的数量。

5.根据权利要求1所述的方法，其中，针对所述图像部分内的所述已识别单元中的每个已识别单元生成所述单元内的像素的取向的直方图包括：

计算梯度，每个梯度具有幅值和对应取向；

将每个对应取向与多个区间中的一个区间进行关联；以及

将每个幅值添加到所述多个区间中的与所述对应取向相关联的所述一个区间。

6.根据权利要求1所述的方法，其中，每个单元区块包括来自所述图像部分的二乘二的所述连续的已识别单元。

7.根据权利要求1所述的方法，其中，针对每个单元区块生成描述符包括级联所述单元区块中的所述已识别单元中的每个已识别单元的直方图。

8.根据权利要求1所述的方法，还包括确定所述对象类别是以下中的一个：

人；

面部；

非矩形几何形状；或者

非几何形状。

9.一种用于图像分类的计算设备，包括：

存储器，其被配置为存储一组训练图像、表示来自所述一组训练图像的图像窗口的相关部分的非矩形轮廓以及识别少于矩形检测窗口内所有单元的非矩形位图，所述矩形检测窗口具有预确定的单元宽度和预确定的单元高度；

硬件加速器，其耦合到所述存储器，所述硬件加速器被配置为：

接收用于分类的图像作为输入，所述图像包括一单元宽度和一单元高度，

通过识别图像部分内的与所述非矩形位图的已识别单元匹配的单元，将所存储的矩形检测窗口应用于所述图像中的具有所述矩形检测窗口的所述单元宽度和所述单元高度的部分，

针对所述图像部分内的所述已识别单元中的每个已识别单元，生成并且存储所述单元内的像素的取向的直方图，以及

建立重叠的单元区块，每个单元区块具有来自所述图像部分的多个连续的已识别单元；以及

处理器，其耦合到所述硬件加速器和所述存储器，所述处理器被配置为：

针对每个单元区块生成描述符，所述描述符包括所述单元区块中的所述已识别单元中的每个已识别单元的直方图，其中，所述描述符内的每个直方图被归一化到所述描述符内的所有直方图，以及

针对所存储的一组训练图像评估所生成的描述符，以便确定是否将所述图像部分识别为包括与所述一组训练图像相关联的对象类别。

10.根据权利要求9所述的计算设备，其中，所述硬件加速器还被配置为：

11.根据权利要求9所述的计算设备，其中，所述硬件加速器或所述处理器中的至少一个被配置为：

对所述一组训练图像取平均；以及

将所取平均的一组训练图像存储为所述非矩形轮廓。

12.根据权利要求9所述的计算设备，其中，所述硬件加速器或所述处理器中的至少一个被配置为：

使针对来自所述一组训练图像的每个位置的所述所有像素的强度值相加以生成结果值；

使针对来自所述一组训练图像的每个位置的所述结果值除以来自所述一组训练图像的训练图像的数量；以及

将所除得的结果值存储为所述非矩形轮廓。

13.根据权利要求9所述的计算设备，其中，被配置为针对所述图像部分内的所述已识别单元中的每个已识别单元生成并且存储所述单元内的像素的取向的直方图的所述硬件加速器还被配置为：

计算梯度，每个梯度具有幅值和对应取向；

将每个对应取向与多个区间中的一个区间进行关联；以及

14.根据权利要求9所述的计算设备，其中，被配置为针对所存储的一组训练图像评估所生成的描述符的所述处理器还被配置为确定所述对象类别是否为以下中的一个：

人；

面部；

非矩形几何形状；或者

非几何形状。

15.一种具有可执行指令的非暂时性计算机可读介质，所述可执行指令可操作以使数据处理装置进行以下操作：

通过识别所述图像部分内的与所述非矩形位图的已识别单元匹配的单元，将所述矩形检测窗口应用于所述图像中的具有所述矩形检测窗口的所述单元宽度和所述单元高度的部分；

16.根据权利要求15所述的非暂时性计算机可读介质，还包括可操作以使所述数据处理装置进行以下操作的可执行指令：

17.根据权利要求15所述的非暂时性计算机可读介质，还包括可操作以使所述数据处理装置进行以下中的一个的可执行指令：对所述一组训练图像取平均，应用计算机视觉算法，或者应用深度学习，以生成所述非矩形轮廓。

18.根据权利要求15所述的非暂时性计算机可读介质，还包括可操作以使所述数据处理装置进行以下操作的可执行指令：

使针对来自所述一组训练图像的每个位置的所述结果值除以来自所述一组训练图像的训练图像的数量，以生成所述非矩形轮廓。

19.根据权利要求15所述的非暂时性计算机可读介质，还包括可操作以使所述数据处理装置进行以下操作的可执行指令：

计算梯度，每个梯度具有幅值和对应取向；

将每个对应取向与多个区间中的一个区间进行关联；以及

20.根据权利要求15所述的非暂时性计算机可读介质，还包括可操作以使所述数据处理装置确定所述对象类别是否为以下中的一个的可执行指令：

人；

面部；

非矩形几何形状；或者

非几何形状。