CN108351962B - 具有自适应性通道特征的对象检测 - Google Patents
具有自适应性通道特征的对象检测 Download PDFInfo
- Publication number
- CN108351962B CN108351962B CN201680064001.XA CN201680064001A CN108351962B CN 108351962 B CN108351962 B CN 108351962B CN 201680064001 A CN201680064001 A CN 201680064001A CN 108351962 B CN108351962 B CN 108351962B
- Authority
- CN
- China
- Prior art keywords
- features
- classification process
- feature
- channel
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 12
- 238000001514 detection method Methods 0.000 title claims description 15
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims description 74
- 230000008569 process Effects 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 229910003460 diamond Inorganic materials 0.000 description 5
- 239000010432 diamond Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
根据一些实施例,可以通过确定随机特征来实现自适应通道特征。可以通过定义训练样本的最大允许特征尺寸来确定随机特征。然后,对训练样本的随机过滤位置进行采样。此后,计算最大允许特征尺寸的补片中的像素权重。选择用于应用增强的分类器的特征。
Description
相关申请的交叉引用
本申请是要求2015年12月1日提交的美国临时申请62/261,350的优先权的非临时申请,该申请通过引用明确地结合于此。
背景技术
这涉及检测对象,诸如,道路上的车辆和行人。
对象检测是许多计算机视觉应用的非常普遍的构建块,诸如,车辆检测、行人检测、交通标志检测。这些检测用于高级驾驶员辅助***、视频监测***等。此类任务通常需要实时运行,通常在低功率移动或嵌入式设备上运行,因此对象检测需要在计算上非常高效。
附图简述
参照以下附图描述一些实施例:
图1示出了对于高级驾驶员辅助***,根据一个实施例,考虑到定义道路上对象的预期尺寸的透视定律,相机校准参数被用于减少由增强分类器(boosting classifier)检查的滑动窗口的数量;
图2示意性地示出了根据一个实施例的增强分类过程;
图3是一个实施例的流程图;
图4是根据一个实施例的自适应通道特征的流程图;
图5是一个实施例的***描绘;以及
图6是根据一个实施例的***的前视图。
具体实施方式
首先,对象检测器使用输入图像的线性和非线性变换来计算所谓的特征通道以提取梯度信息和颜色信息。特征通道是原始图像的注册映射,其中通过线性或非线性变换将输出像素映射至输入像素。然后,滑动窗口方法和增强分类器被用来执行对象/非对象分类并选择用于分类的最佳特征,该增强分类器诸如,RealBoost(如J.Friedman等在“Additivelogistic regression:a statistical view of boosting(加法逻辑回归:一种增强的统计学观点)”(The Annals of Statistics(统计学年鉴),2000年)中所述)。
特征被划分为若干组。在第一弱分类器的分类过程的开始,最快特征被使用。关于哪些特征可以用于第一弱分类器的决策可以基于平台计算限制。第一弱分类器可基于聚合通道特征,如Bin Yang等在“Aggregate Channel Features for Multi-view FaceDetection(用于多视图人脸检测的聚合通道特征)”(2014年关于IEEE的IEEE国际联合会议,生物识别技术(IJCB),2014)中所述。使用该快速特征,大部分非对象窗口被拒绝。
而后,在该分类过程的中段,使用较智能并且更复杂的特征。关于哪些特征可以被用于该分类过程的中段的决策可以基于平台计算限制。较智能特征可能是经过滤的通道特征(FCF)。参见S.Zhang等的“Filtered channel features for pedestrian detection(用于行人检测的经过滤的通道特征)”,Proc.of CVPR(CVPR会刊),2015年。然后,使用FCF特征,在答案为这不是对象时,该流程退出。
在该分类过程的结尾(对于最后的弱分类器序列),考虑到先前已使用的特征的误差,构造被称为自适应通道特征的计算上最昂贵且最独特的特征。
经典的滑动窗口方法在图像内找到特定的固定尺寸(例如,在行人检测的情况下,为50x100)的对象。为了在同一图像中检测更大的对象,算法按比例缩小图像,随后重复该滑动窗口过程。对于高级驾驶员辅助***,考虑到定义如图1所示的道路内对象的预期尺寸的透视效果,相机校准参数被用于减少由增强分类器检查的滑动窗口的数量。如由图1中箭头所示,跨道路扫描滑动窗口A和B。近窗口A比远窗口B大,以考虑到透视。
该检测过程涉及在每一个窗口位置处增强分类器的执行。一个有用的分类器是所谓的增强链。它将输入图像补片(patch)作为矩形像素块,并迭代地计算响应(浮点值)作为多达数百个的弱分类器响应的总和。
对每个弱分类器的响应求和。就在计算出每个中间和之后,将该中间和与“阈值”比较,该“阈值”的值在训练期间被确定。如果该和低于“阈值”,则剩余阶段被跳过,并且该窗口被认为“不是对象”。否则,如果该中间和高于对应的阈值,则该窗口被认为是好的对象候选,并且它的位置和尺寸与最终的响应的和一起被存储,这被视为候选分数。所有此类候选都是从所有图像层收集的。然后,由于场景中的每个真实对象通常产生靠近彼此的若干对象候选,因此对象候选会被分组,或者更准确地说,使用非最大值抑制过程拒绝弱候选对象以有利于更好的候选,这涉及计算得分。剩余对象候选的列表是算法的输出。
对于前Nf个弱分类器,非常快的特征可被使用。例如,具有等于6x6像素的单元尺寸的聚合通道特征(ACF)可被使用。为了加速计算,所有的特征通道都可以被按比例缩小(例如,6倍)。因此,该ACF特征由那个对应的通道中的对应像素值表示。
而后,对于增强链中接下来的Ns个弱分类器,可以使用经过滤的通道特征(FCF),例如,具有等于6x6像素的单元尺寸的FCF特征。同一个经重新设定尺寸的图像可以用于FCF特征计算。
对于最后Na个弱分类器,特征构造可以基于先前使用的弱分类器的误差。Nf、Ns和Na参数取决于平台计算能力,并且在一个实施例中,它们在***调整期间被选择以获得实时解决方案。
上文中利用不同的特征方法描述的增强分类过程由图2中示出的方案示意性地展示。弱分类器wc1、wc2、wc3……用于基于聚合通道特征(ACF)的最快特征,随后是基于经过滤的通道特征(FCF)的较智能特征,然后是自适应通道特征。
自适应通道特征用于增强分类器中弱分类器的最后序列。为了使用自适应通道特征构造每一个新的弱分类器,可以使用下列序列:
(1)减小每个特征通道c的尺寸(例如,6倍);
(2)对于每个特征通道c,考虑每个正样本的训练权重,生成这些通道值的平均分布Ac。根据增强训练过程,每个训练样本具有其自身的权重。因此,Ac是通道值的加权平均。使用先前使用的弱分类器未良好地分类的样本的通道值以较大权重被添加到平均图像Ac中。在一个实施例中,仅正样本可用于计算Ac;
(3)计算每个特征通道c的跨所有正样本的标准差Sc;
(4)考虑Ac和Sc来构造M个随机特征。为了计算这些随机特征,在训练样本中定义特征的最大允许尺寸(特征宽度,特征高度)。然后,对训练样本中的随机过滤位置xf,yf进行采样。
对于矩形R=(xf,yf,xf+特征宽度,yf+特征高度)中的通道c中具有(i,j)坐标的每个像素,计算其自身的权重Wij,在一个实施例中,该权重可以是-1、1或0。
为了计算该权重,找到Sc的最大值maxSc。此后,对于R中的每个像素(i,j),如果Sc(i,j)>coef*maxSc,则设置Wij=0,其中coef是算法的参数。
如果Sc(i,j)小于或等于coef*maxSc,则使用[0,maxAC]范围内的均匀分布来对辅助数n进行采样,其中maxAc是矩形R中AC的最大值。
然后如果n<maxSc/2,则设置Wij=1。如果n>=maxSc/2,则定义Wij=-1。
此后,以权重Wij对R中的所有通道像素(I,j)求和。
(5)计算每个特征通道c的M个随机特征,并选择最佳特征以用于使用增强分类器(诸如,RealBoost)训练过程。
由于Ac和Sc被重新计算,因此对于每个弱分类器,这些特征适应于训练进度。
在以下伪代码中描述该检测算法:
输入:颜色图像,输出:矩形列表,包含“对象”
b.设置初始比例(initial scale)=1,使得对象候选列表或特征候选列表(FCL)为空。
c.直到原始图像宽度不小于W0*比例,并且原始图像高度不小于H0*比例,其中(W0×H0)是经训练的分类器的窗口尺寸,执行:
c.1生成特征通道。金字塔快速计算方法可以用于此目的。
c.2.对于使得矩形Rij={左=x+j*dx,上=y+1*dy,宽度=W0,高度H0}完全适合当前图像层的每对整数(I,j),dx=dy=1,运行增强分类器,其中“wc”表示弱分类器:
如果循环(*)被中断,则跳过该矩形。否则,存储按比例缩放的矩形及其得分:FCL:=FCL∪(Rij*比例,Sij),其中R*比例表示按比例缩放矩形的左上位置和尺寸乘以“比例”来表示在原始的、未按比例缩放的图像坐标中的对象候选。
c.3.增加该比例:scale*scale_increase_constant
d.对步骤c中构造的FCL应用非最大值抑制:
d.1按照分数Si对FCL进行降序排序;
d.2.对于每个(Ri Si),从最高分数开始,执行
对于使得Sj≤Si的所有(Rj,Sj),执行
如果面积(Ri∩Rj/min(面积(Ri),面积(Rj))>0.65,则从FCL中移除(Ri,Sj)
e.返回经过滤的FLC作为算法结果。
在一些实施例中,图3所示的序列10能以软件、固件和/或硬件来实现。序列10可由存储在一种或多种非瞬态性计算机可读介质中的计算机执行的指令来实现,该非瞬态计算机可读介质诸如,磁性、光学或半导体存储。
如框12中所指示,序列10开始于:计算特征通道。在框14中指示使用滑动窗口和增强分类器。如框中16所指示,特征被分成组。
然后在菱形框18处,检查确定初始或起始特征组是否被接收。如果被接收,如框20中所指示,最快特征与聚合通道特征一起被使用。如框22中所指示,任何非对象窗口均被拒绝。
如果如在菱形框18中所确定,这不是起始特征,则菱形框24处的检查确定它是否为中间特征组。如果是,则如框26中所指示,经过滤的通道特征被使用。然后,菱形框28处的检查确定是否发现对象。如果是,该流程结束。
如果对象被发现,则流程继续至菱形框30,并确定这是否为最后一组特征。如果是,则如框32中所指示,自适应通道特征被使用。
根据一个实施例,图4中所示的序列40可以用于自适应通道特征。该序列能以软件、固件和/或硬件来实现。在软件和固件实施例中,它可通过使用存储在一种或多种非瞬态计算机可读介质中的计算机执行的指令来实现,该一种或多种非瞬态计算机可读介质诸如,磁性、光学或半导体存储。
如框42中所指示,序列40开始于:减小每个特征通道的尺寸。然后,如框44中所指示,为每个通道生成通道值的平均分布。接下来,如框46中所示,计算每个特征通道的跨样本的标准偏差。之后,如框48中所指示,构造随机特征。最后,如框50中所示,为增强分类器选择最佳特征。
本文中所描述的图形处理技术可在各种硬件架构中实现。例如,图形功能可被集成在芯片组中。替代地,可使用分立的图形处理器。作为又一实施例,图形功能可由包括多核处理器的通用处理器实现。
图5展示***700的实施例。在实施例中,***700可以是发射机,但是***700不仅限于此上下文。例如,***700可并入个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携式计算机、手持式计算机、掌上电脑、个人数字助理(PDA)、蜂窝电话、蜂窝电话/PDA的组合、电视机、智能设备(例如,智能电话、智能平板或智能电视机)、移动网际设备(MID)、消息接发设备、数据通信设备,等等。
在实施例中,***700包括耦合到显示器720的平台702。平台702可接收来自诸如(多个)内容服务设备730或(多个)内容递送设备740或其他类似内容源之类的内容设备的内容。包括一个或多个导航特征的导航控制器750可被用来与例如平台702和/或显示器720交互。在下文中更详细地描述这些组件中的每一个。
在实施例中,平台702可包括芯片组705、处理器710、存储器712、存储714、图形子***715、应用716和/无线电718的任何组合。芯片组705可提在供处理器710、存储器712、存储714、图形子***715、应用716和/或无线电718之间的相互通信。例如,芯片组705可包括能够提供与存储714的互通的存储适配器(未描绘)。
处理器710可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、兼容x86指令集的处理器、多核,或任何其他微处理器或中央处理单元(CPU)。在实施例中,处理器710可包括(多个)双核处理器、(多个)双核移动处理器等等。该处理器可与存储器712一起实现图3的序列。
可将存储器712实现为易失性存储器设备,诸如但不限于,随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。
可将存储714实现为非易失性存储设备,诸如但不限于,磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附连存储设备、闪存、电池备份的SDRAM(同步DRAM)和/或网络可访问存储设备。在实施例中,存储714可包括用于在例如当多个硬盘驱动器被包括时提高有价值数字媒体的存储性能增强的保护的技术。
图形子***715可执行对诸如静止图像或视频之类的图像进行的处理,以便进行显示。图形子***715可以是例如图形处理单元(GPU)或视觉处理单元(VPU)。可将模拟或数字接口用于通信地耦合图形子***715和显示器720。例如,该接口可以是高清多媒体接口、显示端口、无线HDMI和/或符合无线HD的技术中的任意一个。图形子***715可被集成至处理器710或芯片组705中。图形子***715可以是通信地耦合到芯片组705的独立卡。
可在各种硬件架构中实现本文中所描述的图形和/或视频处理技术。例如,可在芯片组中集成图形和/或视频功能。或者,可使用分立的图形和/或视频处理器。作为又一实施例,图形和/或视频功能可由包括多核处理器的通用处理器实现。在又一实施例中,这些功能可实现在消费者电子设备中。
无线电718可包括能够使用各种合适的无线通信技术发送和接收信号的一个或多个无线电设备。此类技术可涉及跨一个或多个无线网络的通信。示例性无线网络包括(但不限于)无线局域网(WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络以及卫星网络。在跨此类网络进行通信时,无线电718可根据任何版本的一个或多个适用的标准进行操作。
在实施例中,显示器720可包括任何电视机型监视器或显示器。显示器720可包括例如计算机显示屏、触摸屏显示器、视频监视器、电视机类设备和/或电视机。显示器720可以是数字和/或模拟的。在实施例中,显示器720可以是全息显示器。同样,显示器720可以是可接收视觉投影的透明表面。此类投影可传递各种形式的信息、图像和/或对象。例如,此类投影可以是用于移动增强现实(MAR)应用的视觉重叠。在一个或多个软件应用716的控制下,平台702可在显示器720上显示用户界面722。
在实施例中,(多个)内容服务设备730可由任何国内、国际和/或独立服务主控,并因此可经由例如互联网而能够由平台702访问。可将(多个)内容服务设备730耦合至平台702和/或显示器720。可将平台702和/或(多个)内容服务设备730耦合至网络760,以向网络760和从网络760传递(如,发送和/或接收)媒体信息。也可将(多个)内容递送设备740耦合至平台702和/或耦合至显示器720。
在实施例中,(多个)内容服务设备730可包括有线电视盒、个人计算机、网络、电话、启用互联网的设备、或能够传递数字信息和/或内容的设施,以及能够经由网络760或直接地在内容提供方和平台702与显示器720之间单向或双向地传递内容的任何其他类似设备。将会领会,可经由网络760,向***700中的组件中的任一组件和内容提供方以及从***700中的组件中的任一组件和内容提供方单向和/或双向地传递内容。内容的示例可包括任何媒体信息,这些媒体信息包括例如视频、音乐、医疗和游戏信息等。
(多个)内容服务设备730接收内容,这些内容诸如有线电视节目,包括媒体信息、数字信息和/或其他内容。内容提供方的示例可包括任何有线或***或无线电或互联网内容提供方。所提供的示例并不旨在限制适用的实施例。
在实施例中,平台702可从具有一个或多个导航特征的导航控制器750接收控制信号。可将控制器750的导航特征用于与例如用户界面722交互。在实施例中,导航控制器750可以是指点设备,该指点设备可以是允许用户将空间(例如,连续和多维的)数据输入到计算机中的计算机硬件组件(具体地说是人类接口设备)。诸如图形用户界面(GUI)之类的许多***以及电视机和监视器允许用户使用物理手势来控制数据,并向计算机或电视机提供数据。
控制器750的导航特征的移动可以通过指针、光标、焦点环,或显示在显示器上的其他可视指示符的移动被反映到显示器(例如,显示器720)上。例如,在软件应用716的控制下,位于导航控制器750上的导航特征可以被映射到例如用户界面722上显示的虚拟导航特征。在实施例中,控制器750可以不是单独组件,而是集成到平台702和/或显示器720中。然而,实施例并不限于在本文中示出或描述的上下文中的元件或背景。
在实施例中,驱动器(未示出)可包括技术,该技术例如当被启用时,使得用户在初始引导之后能够通过触摸按钮立刻打开和关闭类似电视机的平台702。在平台被“关闭”时,程序逻辑可以允许平台702将内容流传输到媒体适配器或其他(多个)内容服务设备730或(多个)内容递送设备740。另外,芯片组705可包括用于例如5.1环绕声音频和/或高清7.1环绕声音频的硬件和/或软件支持。驱动器可包括用于集成图形平台的图形驱动器。在实施例中,图形驱动器可包括***组件互连(PCI)快速图形卡。
在各种实施例中,可以集成***700中示出的组件中的任意一个或多个。例如,可以集成平台702和(多个)内容服务设备730,或可以集成平台702和(多个)内容递送设备740,或例如可以集成平台702、(多个)内容服务设备730和(多个)内容递送设备740。在各种实施例中,平台702和显示器720可以是集成单元。可以集成显示器720和(多个)内容服务设备730,或例如可以集成显示器720和(多个)内容递送设备740。这些示例并非旨在限制范围。
在各种实施例中,可将***700实现为无线***、有线***或无线和有线***两者的组合。当被实现为无线***时,***700可包括适合于通过无线共享介质进行通信的组件和接口,该组件和接口诸如,一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等。无线共享介质的示例可包括无线频谱的多个部分,诸如,RF频谱等。当被实现为有线***时,***700可以包括适用于通过有线通信介质进行通信的组件和接口,该组件和接口诸如,输入/输出(I/O)适配器、用于将I/O适配器与对应的有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可包括线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。
平台702可建立一个或多个逻辑或物理通道以传递信息。该信息可包括媒体信息和控制信息。媒体信息可以是指表示针对用户的内容的任何数据。内容的示例可包括例如来自语音对话、视频会议、流视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等的数据。来自语音对话的数据可以是例如,话语信息、静默时段、背景噪声、舒适噪声、音调等。控制信息可以是指表示针对自动***的命令、指令或控制字的任何数据。例如,可将控制信息用于通过***来路由媒体信息,或用于指示节点按照预先定义的方式来处理该媒体信息。然而,这些实施例不仅限于图5中示出或描述的上下文中的元件或背景。
如上文所述,能以不同的物理样式或形状因子来使***700具体化。图6展示其中可实现***700的小形状因数设备800的实施例。在各实施例中,例如设备800可被实现为具有无线能力的移动计算设备。移动计算设备可以是指具有处理***和移动电源或供电(诸如例如,一个或多个电池)的任何设备。
如图6中所示,设备800可包括外壳802、显示器804和810、输入/输出(I/O)设备806以及天线808。设备800还可包括导航特征812。显示器804可包括用于显示适于移动计算设备的信息的任何合适的显示单元。I/O设备806可包括用于将信息输入到移动计算设备中的任何合适的I/O设备。I/O设备806的示例可包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、摇杆开关、话筒、扬声器、语音识别设备和软件等。信息还可以通过话筒输入到设备800中。此类信息可由语音识别设备数字化。实施例不限于此上下文。
以下条款和/或示例涉及进一步的实施例:
一个示例实施例可以是一种方法,该方法包括:通过定义训练样本的最大允许特征尺寸来确定随机特征;对训练样本的随机过滤位置进行采样;计算最大允许特征尺寸的补片中的像素权重;以及选择用于应用增强分类器的特征。该方法还可包括:将聚合通道特征用于第一组弱分类器;使用同一按比例缩小的特征通道,应用经过滤的通道特征;以及使用基于先前作为增强分类器被使用的弱分类器的误差而构造的特征。该方法还可包括:基于所选择的训练样本应用增强训练过程,以选择特征并为每个训练样本计算训练权重;考虑训练权重,为每个特征通道生成跨所有正样本的加权平均分布;为每个特征通道计算跨所有正样本的标准差;以及考虑每个特征通道的平均分布和标准差,构造随机特征。该方法还可包括:减小特征通道的尺寸。该方法还可包括:为所述特征通道确定跨样本的标准差。该方法还可包括:对所述补片中的所有通道像素求和。该方法还可包括:生成通道值的平均分布。该方法还可包括:基于训练权重仅使用正样本来生成。该方法还可包括:考虑平均分布和标准差,构造随机特征。该方法还可包括:计算具有标准差的最大值的像素权重。
在另一示例实施例中可以是一种或多种非瞬态计算机可读介质,其存储用于执行序列的指令,该序列包括:通过定义训练样本的最大允许特征尺寸来确定随机特征;对训练样本的随机过滤位置进行采样;计算最大允许特征尺寸的补片中的像素权重;以及选择用于应用增强分类器的特征。该介质还可存储用于执行包括以下步骤的序列的指令:将聚合通道特征用于第一组弱分类器;使用同一按比例缩小的特征通道,应用经过滤的通道特征;以及使用基于先前作为增强分类器被使用的弱分类器的误差而构造的特征。该介质还可存储用于执行包括以下步骤的序列的指令:基于所选择的训练样本应用增强训练过程,以选择特征并为每个训练样本计算训练权重;考虑训练权重,为每个特征通道生成跨所有正样本的加权平均分布;为每个特征通道计算跨所有正样本的标准差;以及考虑每个特征通道的平均分布和标准差,构造随机特征。该介质可进一步存储用于执行包括以下步骤的序列的指令:减小特征通道的尺寸。该介质可进一步存储用于执行包括以下步骤的序列的指令:为特征通道确定跨样本的标准差。该介质可进一步存储用于执行包括以下步骤的序列的指令:对所述补片中的所有通道像素求和。该介质可进一步存储用于执行包括以下步骤的序列的指令:生成通道值的平均分布。该介质可进一步存储用于执行包括以下步骤的序列的指令:基于训练权重仅使用正样本来生成。该介质可进一步存储用于执行包括以下步骤的序列的指令:考虑所述平均分布和标准差,构造随机特征。该介质可进一步存储用于执行包括以下步骤的序列的指令:计算具有标准差的最大值的像素权重。
在又一示例实施例中可以是一种装置,该装置包括处理器和耦合于该处理器的存储器,该处理器用于:通过定义训练样本的最大允许特征尺寸来确定随机特征;对训练样本的随机过滤位置进行采样;计算最大允许特征尺寸的补片中的像素权重;选择用于应用增强分类器的特征。该装置可包括用于以下操作的所述处理器:将聚合通道特征用于第一组弱分类器;使用同一按比例缩小的特征通道;应用经过滤的通道特征;以及使用基于先前作为增强分类器被使用的弱分类器的误差而构造的特征。该装置可包括用于进一步进行以下操作的所述处理器:基于所选择的训练样本应用增强训练过程,以选择特征并为每个训练样本计算训练权重;考虑训练权重,为每个特征通道生成跨所有正样本的加权平均分布;为每个特征通道计算跨所有正样本的标准差;以及考虑每个特征通道的标准分布和标准差,构造随机特征。该装置可包括用于减小特征通道的尺寸的所述处理器。该装置可包括用于为所述特征通道确定跨样本的标准差的所述处理器。该装置可包括用于对所述补片内的所有通道像素求和的所述处理器。该装置可包括用于生成通道值的平均分布的所述处理器。该装置可包括用于基于训练权重仅使用正样本来生成的所述处理器。该装置可包括用于考虑所述平均分布和标准差而构造随机特征的所述处理器。该装置可包括用于计算具有标准差的最大值的像素权重的所述处理器。
在本说明书通篇中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在涵盖在本公开的至少一个实现方式中。因此,短语“一个实施例”或“在实施例中”的出现不一定指代同一实施例。此外,特定特征、结构或特性可按照与所展示的特定实施例不同的其他适当形式来创立,而且所有此类形式可被涵盖在本申请的权利要求中。
尽管已经描述了有限数量的实施例,但是本领域技术人员将从中认识到许多修改和变型。所附权利要求书旨在涵盖落入本公开的真实精神和范围内的所有这些修改和变型。
Claims (21)
1.一种用于对象检测的方法,包括:
基于输入图像生成多个特征通道;
使用滑动窗口方法和增强分类器在所述多个特征通道中标识特征;
将所标识的特征划分为多个特征组,所述多个特征组包括第一特征组,所述第一特征组包含所标识的特征中的、基于计算限制而确定的最快特征;以及
使用所述第一特征组执行第一分类过程,所述第一分类过程基于聚合通道特征使用第一组弱分类器。
2.如权利要求1所述的方法,进一步包括:
在使用所述第一特征组执行所述第一分类过程之后,使用含所标识的特征中计算上昂贵的特征的第二特征组来执行第二分类过程,所述第二分类过程基于自适应通道特征。
3.如权利要求2所述的方法,所述第二分类过程进一步包括:
基于所选择的训练样本应用增强训练过程,以选择特征并计算每个训练样本的训练权重;
考虑训练权重,为每个特征通道生成跨所有正样本的加权平均分布;
为每个特征通道计算跨所有正样本的标准差;以及
考虑每个特征通道的平均分布和标准差,构造随机特征。
4.如权利要求3所述的方法,进一步包括:
在执行所述第一分类过程之后并在执行所述第二分类过程之前,使用第三特征组来执行第三分类过程,所述第三分类过程基于经过滤的通道特征。
5.如权利要求2所述的方法,所述第二分类过程包括:
通过定义训练样本的最大允许特征尺寸来确定随机特征;
对训练样本的随机过滤位置进行采样;
计算具有所述最大允许特征尺寸的补片中的像素权重;以及
选择用于应用增强分类器计算具有标准差的最大值的像素权重的特征。
6.如权利要求5所述的方法,所述第二分类过程包括:对所述补片中的所有通道像素求和。
7.如权利要求1所述的方法,其中,所述增强分类器是执行对多个弱分类器响应的迭代求和的增强链。
8.如权利要求7所述的方法,包括:
对于所述迭代求和中的每次迭代,将和值与阈值进行比较;以及
响应于确定对于每次迭代所述和值超出所述阈值而将滑动窗口的位置和尺寸与最终和值一起进行存储。
9.如权利要求8所述的方法,包括:
响应于确定在特定的迭代中所述和值低于所述阈值而终止所述迭代求和。
10.如权利要求3所述的方法,所述第二分类过程包括:计算具有标准差的最大值的像素权重。
11.一种用于对象检测的装置,包括:
处理器,用于:
基于输入图像生成多个特征通道;
使用滑动窗口方法和增强分类器在所述多个特征通道中标识特征;
将所标识的特征划分为多个特征组,所述多个特征组包括第一特征组,所述第一特征组包含所标识的特征中的、基于计算限制而确定的最快特征;以及
使用所述第一特征组执行第一分类过程,所述第一分类过程基于聚合通道特征使用第一组弱分类器;以及
存储器,耦合至所述处理器。
12.如权利要求11所述的装置,所述处理器用于:
在使用所述第一特征组执行所述第一分类过程之后,使用含所标识的特征中计算上昂贵的特征的第二特征组来执行第二分类过程,所述第二分类过程基于自适应通道特征。
13.如权利要求12所述的装置,所述处理器用于,在所述第二分类过程中:
基于所选择的训练样本应用增强训练过程,以选择特征并为每个训练样本计算训练权重;
考虑训练权重,为每个特征通道生成跨所有正样本的加权平均分布;
为每个特征通道计算跨所有正样本的标准差;以及
考虑每个特征通道的平均分布和标准差,构造随机特征。
14.如权利要求13所述的装置,所述处理器用于:
在执行所述第一分类过程之后并在执行所述第二分类过程之前,使用第三特征组来执行第三分类过程,所述第三分类过程基于经过滤的通道特征。
15.如权利要求12所述的装置,所述处理器用于,在所述第二分类过程中:
通过定义训练样本的最大允许特征尺寸来确定随机特征;
对训练样本的随机过滤位置进行采样;
计算具有所述最大允许特征尺寸的补片中的像素权重;以及
选择用于应用增强分类器的特征。
16.如权利要求15所述的装置,所述处理器用于,在所述第二分类过程中:对所述补片中的所有通道像素求和。
17.如权利要求11所述的装置,其中,所述增强分类器是执行对多个弱分类器响应的迭代求和的增强链。
18.如权利要求17所述的装置,所述处理器用于:
对于所述迭代求和中的每次迭代,将和值与阈值进行比较;以及
响应于确定对于每次迭代所述和值超出所述阈值而将滑动窗口的位置和尺寸与最终和值一起进行存储。
19.如权利要求18所述的装置,所述处理器用于:
响应于确定在特定的迭代中所述和值低于所述阈值而终止所述迭代求和。
20.如权利要求13所述的装置,所述处理器用于,在所述第二分类过程中:计算具有标准差的最大值的像素权重。
21.一种或多种非瞬态计算机可读介质,存储用于执行序列的指令,所述序列包括如权利要求1-10中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562261350P | 2015-12-01 | 2015-12-01 | |
US62/261,350 | 2015-12-01 | ||
PCT/US2016/057635 WO2017095543A1 (en) | 2015-12-01 | 2016-10-19 | Object detection with adaptive channel features |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108351962A CN108351962A (zh) | 2018-07-31 |
CN108351962B true CN108351962B (zh) | 2022-05-10 |
Family
ID=58797785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680064001.XA Active CN108351962B (zh) | 2015-12-01 | 2016-10-19 | 具有自适应性通道特征的对象检测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10810462B2 (zh) |
CN (1) | CN108351962B (zh) |
DE (1) | DE112016005482T5 (zh) |
WO (1) | WO2017095543A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509345A (zh) * | 2017-09-15 | 2019-03-22 | 富士通株式会社 | 车辆检测装置和方法 |
CN107977604B (zh) * | 2017-11-06 | 2021-01-05 | 浙江工业大学 | 一种基于改进聚合通道特征的手部检测方法 |
WO2020191668A1 (en) * | 2019-03-27 | 2020-10-01 | Hangzhou Fabu Technology Co. Ltd | Proposal processing method and related products |
KR20200123501A (ko) * | 2019-04-15 | 2020-10-30 | 현대자동차주식회사 | 차량의 객체 검출 장치 및 방법 |
CN111898733B (zh) * | 2020-07-02 | 2022-10-25 | 西安交通大学 | 一种深度可分离卷积神经网络加速器架构 |
CN112949484B (zh) * | 2021-03-01 | 2022-04-26 | 浙江大学 | 一种高速铁路落石实时检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092971A (zh) * | 2013-01-24 | 2013-05-08 | 电子科技大学 | 一种用于脑机接口中的分类方法 |
CN104036284A (zh) * | 2014-05-12 | 2014-09-10 | 沈阳航空航天大学 | 基于Adaboost算法的多尺度行人检测方法 |
CN104680120A (zh) * | 2013-12-02 | 2015-06-03 | 华为技术有限公司 | 一种人脸检测的强分类器的生成方法及装置 |
CN104978570A (zh) * | 2015-06-25 | 2015-10-14 | 西北工业大学 | 基于增量学习的行车视频中交通标志的检测和识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080107341A1 (en) * | 2006-11-02 | 2008-05-08 | Juwei Lu | Method And Apparatus For Detecting Faces In Digital Images |
US8170332B2 (en) * | 2009-10-07 | 2012-05-01 | Seiko Epson Corporation | Automatic red-eye object classification in digital images using a boosting-based framework |
US8509526B2 (en) * | 2010-04-13 | 2013-08-13 | International Business Machines Corporation | Detection of objects in digital images |
SE537936C2 (sv) * | 2011-06-10 | 2015-12-01 | Oculusai | Icke-linjär klassificering av data |
US20140286527A1 (en) * | 2013-03-20 | 2014-09-25 | Qualcomm Incorporated | Systems and methods for accelerated face detection |
-
2016
- 2016-10-19 US US15/769,118 patent/US10810462B2/en active Active
- 2016-10-19 DE DE112016005482.3T patent/DE112016005482T5/de not_active Withdrawn
- 2016-10-19 WO PCT/US2016/057635 patent/WO2017095543A1/en active Application Filing
- 2016-10-19 CN CN201680064001.XA patent/CN108351962B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092971A (zh) * | 2013-01-24 | 2013-05-08 | 电子科技大学 | 一种用于脑机接口中的分类方法 |
CN104680120A (zh) * | 2013-12-02 | 2015-06-03 | 华为技术有限公司 | 一种人脸检测的强分类器的生成方法及装置 |
CN104036284A (zh) * | 2014-05-12 | 2014-09-10 | 沈阳航空航天大学 | 基于Adaboost算法的多尺度行人检测方法 |
CN104978570A (zh) * | 2015-06-25 | 2015-10-14 | 西北工业大学 | 基于增量学习的行车视频中交通标志的检测和识别方法 |
Non-Patent Citations (1)
Title |
---|
Filtered Channel Features for Pedestrian Detection;Shanshan Zhang et al;《arXiv》;20150123;第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
DE112016005482T5 (de) | 2018-08-09 |
US10810462B2 (en) | 2020-10-20 |
US20180314916A1 (en) | 2018-11-01 |
CN108351962A (zh) | 2018-07-31 |
WO2017095543A1 (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108351962B (zh) | 具有自适应性通道特征的对象检测 | |
CN107810505B (zh) | 实时图像捕获参数的机器学习 | |
US10430694B2 (en) | Fast and accurate skin detection using online discriminative modeling | |
US9940550B2 (en) | Model compression in binary coded image based object detection | |
US10909394B2 (en) | Real-time multiple vehicle detection and tracking | |
TWI617996B (zh) | 使用方向性濾波之物件檢測技術 | |
KR20120017869A (ko) | 단계별 객체 정보 제공이 가능한 단말 장치 및 방법 | |
CN111932463B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
US11017541B2 (en) | Texture detector for image processing | |
US9153201B2 (en) | Real-time order-independent transparent rendering | |
US10180782B2 (en) | Fast image object detector | |
CN111080595A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
JP7459425B2 (ja) | 適応的ランタイム高効率画像分類のための入力画像サイズスイッチ可能ネットワーク | |
CN113168502A (zh) | 用于可变计算资源的动态自适应卷积神经网络 | |
CN110232417B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
US20170323416A1 (en) | Processing image fragments from one frame in separate image processing pipes based on image analysis | |
US9286655B2 (en) | Content aware video resizing | |
EP2798614B1 (en) | Method of and apparatus for low-complexity detection of periodic textures | |
WO2023028908A1 (en) | Dynamic temporal normalization for deep learning in video understanding applications | |
CN112785487A (zh) | 图像处理方法及装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |