CN103886315A - 应用于行人姿势分类的3d人体模型 - Google Patents
应用于行人姿势分类的3d人体模型 Download PDFInfo
- Publication number
- CN103886315A CN103886315A CN201310714502.6A CN201310714502A CN103886315A CN 103886315 A CN103886315 A CN 103886315A CN 201310714502 A CN201310714502 A CN 201310714502A CN 103886315 A CN103886315 A CN 103886315A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- posture
- sorter
- image
- composograph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
对行人姿势分类模型进行训练。接收行人的三维(3D)模型。接收指示如何生成行人的图像的图像参数的集合。基于接收的3D模型和接收的图像参数的集合来生成二维(2D)合成图像。利用图像参数的集合对生成的合成图像进行注释。通过经注释的合成图像训练多个行人姿势分类器。
Description
相关申请
本申请要求2012年12月21日递交的第61/745,235号美国临时申请的权益,其通过引用的方式全部并入于此。
技术领域
本发明总体涉及对象分类的领域,并且更具体地涉及在对行人姿势的分类中对合成数据的使用。
背景技术
配备有行人检测***的车辆(例如汽车)可以警告其司机附近有行人。然而,仅仅有行人检测是不够的。情势的危险也应当被评估。只有当存在事故的风险时才应当被产生警告。否则,司机将被不必要地分散注意力。情势的危险例如与行人是否可能走入车辆的路径有关。
“对象分类”指自动对视频图像或静态图像中的对象进行分类的操作。例如,分类***可以确定静态图像中的人(例如行人)正在面向左、面向右、面向前还是面向后。可以例如在车辆中使用行人姿势分类以提高车辆的司机、行人、骑车者以及与车辆共享道路的任何其它人的安全性。
当前的对象分类***存在很多问题。一个问题是缺少用于训练对象分类模型的大规模的训练集。为机器学习算法提供包括正样本(包括特定类别的对象的图像)和负样本(不包括该特定类别的对象的图像,例如包括另一类别的对象的图像)的训练集以产生对象分类模型。
此外,当为特定类型的对象生成新的训练集时,每个图像利用特定的信息片段被人工注释。例如,图像中存在的对象的分类和/或图像中存在的对象的特定参数(例如图像内的对象的颜色和对象的位置)可以被添加到图像中。机器学习算法利用那些注释和图像来生成用于对对象进行分类的模型。注释过程可能是乏味且耗时的。
发明内容
以上及其它问题通过一种用于训练行人姿势分类模型的方法、非瞬态计算机可读存储介质和***来解决。该方法的实施例包括接收行人的三维(3D)模型。该方法还包括接收指示如何生成行人的图像的图像参数的集合。该方法还包括基于接收的3D模型和接收的图像参数的集合来生成二维(2D)合成图像。该方法还包括利用图像参数的集合对所生成的合成图像进行注释。该方法还包括通过经注释的合成图像训练多个行人姿势分类器。
该介质的实施例存储用于训练行人姿势分类模型的可执行指令。该指令接收行人的三维(3D)模型。该指令还接收指示如何生成行人的图像的图像参数的集合。该指令还基于接收的3D模型和接收的图像参数的集合来生成二维(2D)合成图像。该指令还利用图像参数的集合对所生成的合成图像进行注释。该指令还通过经注释的合成图像训练多个行人姿势分类器。
该***的实施例包括存储可执行指令的非瞬态计算机可读存储介质。该指令接收行人的三维(3D)模型。该指令还接收指示如何生成行人的图像的图像参数的集合。该指令还基于接收的3D模型和接收的图像参数的集合来生成二维(2D)合成图像。该指令还利用图像参数的集合对所生成的合成图像进行注释。该指令还通过经注释的合成图像训练多个行人姿势分类器。
说明书中所描述的特征和优点并非无所不包的,并且具体而言,很多附加的特征和优点对于本领域技术人员来说在考虑到附图、说明书和权利要求的情况下是显而易见的。此外,应当注意说明书中所使用的语言主要为了可读性和指导性的目的而被选择,并且可以不被选择用来描述或者限定发明主题。
附图说明
图1是示出了根据实施例的行人姿势分类***的高级框图。
图2是示出了根据实施例的被用作图1中所示的行人姿势分类***的计算机的示例的高级框图。
图3A是示出了根据实施例的图1中所示的图像生成模块的详细视图的高级框图。
图3B是示出了根据实施例的图1中所示的总体分类模块的详细视图的高级框图。
图4A是示出了根据实施例的用于生成合成行人数据的方法的流程图。
图4B是示出了根据实施例的用于训练多个二元行人姿势分类器以用于在图3B中所示的总体分类模块中使用的方法的流程图。
图4C是示出了根据实施例的用于对静态图像中的行人的姿势进行分类的方法的流程图。
附图为了图示的目的而示出了实施例的各种实现方式。本领域技术人员根据以下的讨论将很容易地意识到可以使用这里所示出的结构和方法的替代实施例而不偏离这里所描述的实施例的原理。
具体实施方式
现在参考附图描述实施例,其中相似的标号指示相同或功能相似的元件。此外,在附图中,每个标号最左边的数字对应于其中该标号第一次被使用的附图。
图1是示出了根据实施例的行人姿势分类***100的高级框图。行人姿势分类***100可以包括图像生成模块105、训练模块110和总体分类模块120。在给出行人的静态图像的情况下,行人姿势分类***100可以对行人的姿势进行分类。在一个实施例中,姿势被分类为“面向左”、“面向右”或者“面向前或面向后”。行人姿势分类***100可以被用在车辆中以对在车辆外面的附近的行人的姿势进行分类。然后,姿势分类可以被用于确定行人是否可能走入车辆的路径中。
对行人姿势的了解可以被用在例如车辆事故避免***中以提高车辆内部人员的安全性以及与车辆共享道路的行人的安全性。司机在驾驶车辆时可能需要注意出现在他们周围的多个对象和事件。例如,司机可能需要注意交通标志(例如交通信号灯、速度标志和警告标志)、车辆参数(例如车辆速度、引擎速度、油温和油量)、共享道路的车辆、试图穿过街道的行人等。有时,行人可能被忽视并且可能被卷入事故中。
如果检测到有行人存在(该行人可能走入车辆的路径中),则可以警示司机有行人存在。例如,考虑位于车辆右边的行人。如果该行人正面向左,则该行人更有可能走入车辆的路径中。如果该行人正面向右,则该行人较不可能走入车辆的路径中。
图像生成模块105接收背景图像和行人的三维(3D)虚拟模型作为输入,生成行人的二维(2D)图像,对生成的2D图像进行注释,并且输出经注释的2D图像(“合成行人数据”)。图像生成模块105还可以接收参数的集合以在生成行人的2D图像时使用(未被示出)。
训练模块110接收由图像生成模块105生成的经注释的2D图像(合成行人数据)作为输入。然后,训练模块110利用合成行人数据来训练用于对图像中的行人的姿势进行分类的行人姿势分类器并且输出经训练的行人姿势分类器。下面参考图3A进一步描述合成行人数据。
总体分类模块120接收行人的静态图像以及经训练模块110训练的行人姿势分类器,确定行人的姿势的分类,并且输出该分类。在一些实施例中,静态图像由安装在车辆上的相机捕获。例如,静态图像可以利用具有1/1.8英寸的传感器的电荷耦合器件(CCD)相机来捕获。为了提高相机的快门速度并且降低图像模糊,也可以使用具有更大的传感器的相机。在一些实施例中,通过从视频中提取帧来得到静态图像。行人姿势分类可以是三元结果(例如面向左、面向右或者面向前或面向后)。
图2是示出了根据实施例的被用作图1中所示的行人姿势分类***100的计算机200的示例的高级框图。所图示的是被耦合至芯片组204的至少一个处理器202。芯片组204包括存储器控制器集线器250和输入/输出(I/O)控制器集线器255。存储器206和图形适配器213被耦合至存储器控制器集线器250,并且显示设备218被耦合至图形适配器213。存储设备208、键盘210、定点设备214和网络适配器216被耦合至I/O控制器集线器255。计算机200的其它实施例具有不同的体系结构。例如,在一些实施例中存储器206被直接耦合至处理器202。
存储设备208包括一个或多个非瞬态计算机可读存储介质,例如硬盘、致密盘只读存储器(CD-ROM)、DVD或者固态存储器设备。存储器206保存由处理器202使用的指令和数据。定点设备214与键盘210结合使用以将数据输入到计算机***200中。图形适配器213将图像及其它信息显示在显示设备218上。在一些实施例中,显示设备218包括用于接收用户输入和选择的触摸屏能力。网络适配器216将计算机***200耦合至通信网络或其它计算机***(未示出)。
计算机200的一些实施例具有与图2中所示的那些组件不同的组件和/或除了图2中所示的那些组件以外的其它组件。例如,计算机200可以是嵌入式***并且缺少图形适配器213、显示设备218、键盘210、定点设备214及其它组件。
计算机200适于执行用于提供这里所描述的功能的计算机程序模块。如这里所使用的,术语“模块”指被用于提供所指定的功能的计算机程序指令和/或其它逻辑。因而,模块可以用硬件、固件和/或软件来实现。在一个实施例中,由可执行计算机程序指令构成的程序模块被存储在存储设备208上,被载入到存储器206中并且由处理器202执行。
图3A是示出了根据实施例的图1中所示的图像生成模块105的详细视图的高级框图。图像生成模块105包括行人渲染模块301、背景并入模块303、图像后处理模块305和图像注释模块307。
行人渲染模块301接收行人的三维(3D)虚拟模型和参数的集合作为输入,基于接收的参数渲染行人的二维(2D)图像,并且输出经渲染的2D图像。参数的集合例如可以包括行人的性别(例如男或女)、行人的身高、行人的体型(瘦型体质、胖型体质或者运动型体质)、行人的发色(黑色、棕色、金色等)、行人的衣着(衬衫、裤子、鞋等)、行人所用的附件(帽子、背包、伞等)和/或行人的姿势分类(面向左、面向右或者面向前或面向后)。
此外,行人渲染模块301还可以接收照明参数(例如照明源方位角、照明源高度(elevation)、照明源强度和环境光能量)、相机参数(例如相机方位角、相机高度和相机旋转),以及渲染参数(图像尺寸、边界尺寸等)。
背景并入模块303接收由行人渲染模块301生成的2D行人图像以及2D背景图像作为输入,将行人图像与背景图像组合并且输出组合的2D图像。在一些实施例中,背景图像选自背景图像库。背景并入模块303还可以接收对行人图像应当被放在背景图像内何处做出指示的位置作为参数,并且将行人图像放在接收的位置处。例如,背景并入模块303可以接收对将行人图像放在背景图像内何处做出指示的坐标点作为参数。或者,背景并入模块303可以接收对行人图像应当被放在其中的方框进行限定的两个点作为参数。
图像后处理模块305接收具有背景并入模块303所生成的背景的行人的2D图像,编辑接收的图像以使得其可以被训练模块110使用,并且输出经编辑的图像。例如,图像后处理模块305可以使图像平滑、对图像进行下采样、对图像进行剪裁等。
图像注释模块307接收图像后处理模块305所输出的图像作为输入,利用接收的图像的地面实况对接收的图像进行注释,并且输出经注释的图像。在一些实施例中,地面实况指示行人的姿势分类(例如面向左、面向右或者面向前或面向后)。在其它实施例中,地面实况还包括被用来渲染图像的其它参数。地面实况还可以包括行人在图像中的位置。例如,图像注释模块307可以利用对行人在图像中的位置做出指示的坐标点(或者对方框进行限定的两个点)对图像进行注释。
图3B是示出了根据实施例的图1中所示的总体分类模块120的详细视图的高级框图。总体分类模块120包括方向梯度直方图(HOG)提取模块311、多个二元分类模块313和裁决模块315。
方向梯度直方图(HOG)提取模块311接收静态图像,从接收的静态图像中提取HOG特征并且输出提取的特征。如这里所使用的,方向梯度直方图(HOG)是为了对象分类的目的而在计算机视觉和图像处理中使用的特征描述符。HOG特征指示在图像的局部化部分中出现梯度定向(gradient orientation)的次数。
HOG提取模块311通过将接收的图像分成多个单元来提取HOG特征。例如,HOG提取模块311可以利用具有8×8像素的单元尺寸来计算HOG特征。对于每个单元,HOG提取模块311对单元的像素计算一维(1D)梯度方向直方图。在一些实施例中,HOG提取模块311通过以下方式针对整个接收的图像中的亮度变化对图像进行标准化:将图像分成区块,计算区块的本地直方图能量并且基于计算出的本地直方图能量对区块内的单元进行标准化。例如,HOG提取模块311可以利用具有2×2个单元的区块尺寸来计算本地直方图能量。
在一个实施例中,HOG提取模块311从具有预定义尺寸的图像中提取HOG特征。例如,HOG提取模块311可以从32×64像素的图像中提取HOG特征。如果接收的图像的尺寸更大或更小,则HOG提取模块对图像进行缩小或放大,直到图像尺寸等于预定义的图像尺寸为止。
二元分类模块313接收来自图像的HOG特征的集合作为输入,利用分类器(例如支持向量机或“SVM”)和HOG特征来确定出现在图像中的行人的姿势是否属于特定类别,并且输出二元结果(例如是/否)和置信度值(confidence value)。在一些实施例中,二元分类模块313使用线性分类器,例如线性SVM。在其它实施例中,二元分类模块313使用非线性分类器,例如径向基函数(RBF)SVM。二元分类模块313所输出的置信度值指示二元结果正确的概率。
如这里所使用的,线性分类器基于对象的特性或特征的线性组合(或函数)来识别对象(例如静态图像)是否属于特定类别(例如行人面向左、行人面向右、行人面向前或面向后)。在一个实施例中,线性分类器的输出由以下等式给出:
y=f(ω·x)
其中y是线性分类模块的输出,ω是由训练模块110确定的权重向量,并且x是包含被分类的对象的特征的值的特征向量。
如这里所使用的,非线性分类器基于对象的特征的非线性组合(或函数)来识别对象(例如图像)是否属于特定类别(例如行人面向左、行人面向右、行人面向前或面向后)。
二元分类模块313中的每一个模块可以针对一个姿势对行人静态图像分类。例如,二元分类模块313A可以对行人图像进行分类以确定图像是否包含面向左的行人,二元分类模块313B可以对行人图像进行分类以确定图像是否包含面向右的行人,并且二元分类模块313C可以对行人图像进行分类以确定图像是否包含面向前或面向后的行人。在一些实施例中,二元分类模块313A基于行人静态图像包含面向左的行人的概率生成分数(例如置信度值),二元分类模块313B基于行人静态图像包含面向右的行人的概率生成分数(置信度值),并且二元分类模块313C基于行人静态图像包含面向前或面向后的行人的概率生成分数(置信度值)。
裁决模块315接收从二元分类模块313中的每个模块接收输出并且确定静态图像中的行人的姿势分类。在一个实施例中,裁决模块确定姿势分类为:
pmax=maxipi
其中i是0、1或2并且p0是(如由二元分类模块313A确定的)静态图像中的行人正面向左的概率,p1是(如由二元分类模块313B确定的)静态图像中的行人正面向右的概率并且p2是(如由二元分类模块313C确定的)静态图像中的行人正面向前或面向后的概率。因而,pmax是由二元分类模块313确定的分数(置信度值)的最大值。此外,θ是阈值概率值,并且c是由裁决模块315输出的姿势分类。因而,裁决模块315的输出是具有最高分数的姿势分类(如果分数高于阈值θ)或者-1(如果最大分数等于或者在阈值以下)。如这里所使用的,裁决模块315的输出-1指示裁决模块不能对静态图像中的行人的姿势进行分类。
图4A是示出了根据实施例的用于生成合成行人数据的方法的流程图。合成行人数据可以结合行人姿势分类器被使用(例如用于训练分类器或者测试分类器的准确性)。图像生成模块105接收401三维(3D)行人模型和图像参数的集合。
行人渲染模块301基于接收的行人模型和接收的图像参数来渲染403行人的二维(2D)图像。
背景并入模块303将背景添加到405经渲染的行人图像中。
在一些实施例(未示出)中,图像后处理模块305可以对具有背景的行人的图像应用图像后处理技术(例如平滑、下采样、剪裁)。
图像注释模块307对具有地面实况的组合图像(行人加背景)进行注释407。例如,图像注释模块307可以利用指示图像中的行人的姿势分类的值对图像进行注释。在其它实施例中,图像注释模块307还利用诸如行人所使用的附件之类的接收的图像参数中的一个或多个参数对图像进行注释。
图4A中所示的步骤可以被重复多次(利用不同的行人模型、图像参数和/或背景)来生成多个经注释的合成行人图像。例如,图4A的步骤可以被重复数千次以产生数千个经注释的合成行人图像。
图4B是示出了根据实施例的用于训练多个二元行人姿势分类器以在图3B中所示的总体分类模块120中使用的方法的流程图。训练模块110接收431由图像生成模块105生成的经注释的合成行人图像并且使用“一对多”的方法来利用经注释的图像训练多个二元行人姿势分类器。
训练模块110确定433接收的图像中的行人是否在第一姿势分类(例如面向左)中。这一确定例如通过访问图像的注释来执行。如果行人在第一姿势分类中,则将接收的图像用作正样本来训练437第一二元行人姿势分类器,用作负样本来训练443第二二元行人姿势分类器,以及用作负样本来训练447第三二元行人姿势分类器。
如果行人不在第一姿势分类中,则训练模块110确定435接收的图像中的行人是否在第二姿势分类(例如面向右)中。这一确定例如通过访问图像的注释来执行。如果行人在第二姿势分类中,则将接收的图像被用作正样本来训练441第二二元行人姿势分类器,用作负样本来训练439第一二元行人姿势分类器,以及用作负样本来训练447第三二元行人姿势分类器。
如果行人不在第二姿势分类中,则将接收的图像用作正样本来训练445第三二元行人姿势分类器,用作负样本来训练439第一二元行人姿势分类器,以及用作负样本来训练443第二二元行人姿势分类器。
图4C是示出了根据实施例的用于对静态图像中的行人的姿势进行分类的方法的流程图。总体分类模块120接收411要被分类的静态图像。在一些实施例中,图像可以利用在车辆中安装的相机来捕获。
HOG提取模块311分析接收的静态图像并且从接收的静态图像中提取413HOG特征。
第一二元分类模块313A利用经训练模块110训练的第一行人姿势分类器和HOG提取模块所提取的HOG特征对图像进行分类415A。第二二元分类模块313B利用经训练模块110训练的第二行人姿势分类器和HOG提取模块所提取的HOG特征对图像进行分类415B。第三二元分类模块313C利用经训练模块110训练的第三行人姿势分类器和HOG提取模块所提取的HOG特征对图像进行分类415C。作为分类的部分,每个二元行人姿势分类器313可以生成分类分数(例如置信度值)。
裁决模块315选择417具有最高分数的分类并且确定419选择的分类分数是否大于阈值。如果选择的分类大于阈值,则输出421选择的分类。否则,如果选择的分类分数等于或者在阈值以下,则可能输出423错误。
由图像生成模块105生成的合成行人数据还可以被用来对经训练的行人姿势分类器进行基准化分析(benchmark)。例如,图4C的步骤可以利用经注释的合成行人图像来执行。然后,将步骤421中输出的姿势分类与合成行人图像的注释进行比较。如果输出姿势分类与合成行人图像的地面实况(例如其姿势分类)相匹配,则可以确定经训练的行人姿势分类器正在正确地对行人图像进行分类。在一个实施例中,使用多个经注释的合成行人图像来对经训练的行人姿势分类器进行基准化分析,并且确定不正确分类的百分比。
说明书中对“一个实施例”或“实施例”的引用意味着结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在说明书中的不同地方出现短语“在一个实施例中”或者“实施例”不必要都指代相同的实施例。
具体实施方式中的一些部分以对计算机存储器内的数据位的操作的算法和符号表示的形式来表示。这些算法描述和表示是被数据处理领域中的技术人员用来最有效地将他们工作的本质传达给其他本领域技术人员的手段。算法在这里并且一般而言被设想为导致想要的结果的自治的步骤(指令)的序列。这些步骤是需要对物理量进行物理操纵的步骤。通常,但不必要地,这些物理量采用能够被存储、传送、组合、比较或者操纵的电信号、磁信号或光信号的形式。有时主要是出于惯用的原因而将这些信号称作比特、值、元素、符号、字符、术语、数字等是方便的。此外,在不失一般性的情况下,有时将需要对物理量的物理操纵或变换或者对物理量的表示的步骤的特定安排称作模块或代码设备也是方便的。
然而,所有这些和类似术语要与合适的物理量相关联并且只是被应用于这些量的方便的标签。除非特别说明,从以下的讨论中可以显而易见的是,可以理解在整个描述中,利用诸如“处理”或“计算”或“确定”或“显示”等之类的术语的讨论指计算机***或者类似的电子计算设备(例如专用计算机器)的动作和过程,所述计算机***或者类似的电子计算设备操纵和变换在计算机***存储器或寄存器或其它这样的信息存储设备、传输设备或显示设备内的被表示为物理(电子)量的数据。
实施例的特定方面包括在这里以算法的形式描述的过程步骤和指令。应当注意实施例的过程步骤和指令可以用软件、固件或硬件来实现,并且当用软件来实现时,可以被下载以驻留于各种操纵***所使用的不同平台上并且从这些平台上被运行。实施例也可以在可在计算***上执行的计算机程序产品中。
实施例还涉及用于执行这里的操作的装置。该装置可以为了这些目的而被专门构建,例如专用计算机,或者其可以包括由被存储在计算机中的计算机程序选择性地激活或者重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读存储介质中,例如但不限于包括软盘、光盘、CD-ROM、磁光盘的任意类型的盘、只读存储器(ROM)、随机访问存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或者适合用于存储电子指令、并且均被耦合至计算机***总线的任意类型的介质。存储器可以包括可以存储信息/数据/程序的以上和/或其它设备中的任意设备并且可以是暂时性或非暂时性介质,其中非暂时性或非瞬态介质可以包括存储信息持续多于最小持续时间的存储器/存储设备。此外,说明书中所提到的计算机可以包括单个处理器或者可以是利用用于提高计算能力的多个处理器设计的体系结构。
这里所呈现的算法和显示并不固有地涉及任何特定的计算机或其它装置。各种通用***也可以结合根据这里的教导的程序一起使用,或者可以证实构建更专用的装置来执行方法步骤是方便的。根据这里的描述,用于各种这些***的结构将变得清楚。此外,实施例没有参考任何特定的编程语言来描述。应当理解各种编程语言可以被用于实现这里所描述的实施例的教导,并且这里对用于公开使能和最佳模式的特定语言的任何参考被提供。
此外,说明书中所使用的语言主要为了可读性和指导的目的而被选择,并且可能并非已经被选择用来描述或限定发明主题。因此,实施例的公开旨在于例示而非限制权利要求中所提出的实施例的范围。
虽然这里图示并描述了具体实施例和应用,但是应当理解这些实施例并不限于这里所公开的精确结构和组件,并且可以在实施例的方法和装置的布置、操作和细节方面做出各种修改、改变和变化而不偏离所附权利要求中所限定的实施例的精神和范围。
Claims (20)
1.一种用于训练行人姿势分类模型的方法,包括:
接收行人的三维(3D)模型;
接收指示如何生成行人的图像的图像参数的集合;
基于接收的所述三维模型和接收的所述图像参数的集合来生成二维(2D)合成图像;
利用所述图像参数的集合对生成的所述合成图像进行注释;以及
通过经注释的所述合成图像训练多个行人姿势分类器。
2.根据权利要求1所述的方法,其中所述图像参数的集合包括姿势分类,并且其中训练所述多个行人姿势分类器包括:
响应于所述图像参数的所述姿势分类为第一姿势分类,通过作为正样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第一行人姿势分类器。
3.根据权利要求2所述的方法,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为所述第一姿势分类,通过作为负样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第二行人姿势分类器。
4.根据权利要求3所述的方法,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为第二姿势分类,通过作为负样本的经注释的所述合成图像来训练所述第一行人姿势分类器,并且通过作为正样本的经注释的所述合成图像来训练所述第二行人姿势分类器。
5.根据权利要求1所述的方法,其中生成所述二维合成图像包括:
根据接收的所述三维模型渲染行人的二维图像;以及
为经渲染的所述二维图像添加背景。
6.根据权利要求1所述的方法,其中所述行人姿势分类器是二元行人姿势分类器。
7.根据权利要求1所述的方法,其中所述行人姿势分类器包括非线性支持向量机(SVM)。
8.根据权利要求1所述的方法,其中所述行人姿势分类器基于方向梯度直方图(HOG)图像特征执行分类。
9.一种被配置为存储用于训练行人姿势分类模型的指令的非瞬态计算机可读存储介质,所述指令在由处理器执行时使得所述处理器:
接收行人的三维(3D)模型;
接收指示如何生成行人的图像的图像参数的集合;
基于接收的所述三维模型和接收的所述图像参数的集合来生成二维(2D)合成图像;
利用所述图像参数的集合对生成的所述合成图像进行注释;以及
通过经注释的所述合成图像训练多个行人姿势分类器。
10.根据权利要求9所述的非瞬态计算机可读存储介质,其中所述图像参数的集合包括姿势分类,并且其中训练所述多个行人姿势分类器包括:
响应于所述图像参数的所述姿势分类为第一姿势分类,通过作为正样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第一行人姿势分类器。
11.根据权利要求10所述的非瞬态计算机可读存储介质,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为所述第一姿势分类,通过作为负样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第二行人姿势分类器。
12.根据权利要求11所述的非瞬态计算机可读存储介质,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为第二姿势分类,通过作为负样本的经注释的所述合成图像来训练所述第一行人姿势分类器,并且通过作为正样本的经注释的所述合成图像来训练所述第二行人姿势分类器。
13.根据权利要求9所述的非瞬态计算机可读存储介质,其中生成所述二维合成图像包括:
根据接收的所述三维模型渲染行人的二维图像;以及
为经渲染的所述二维图像添加背景。
14.根据权利要求9所述的非瞬态计算机可读存储介质,其中所述行人姿势分类器是二元行人姿势分类器。
15.根据权利要求9所述的非瞬态计算机可读存储介质,其中所述行人姿势分类器包括非线性支持向量机(SVM)。
16.根据权利要求9所述的非瞬态计算机可读存储介质,其中所述行人姿势分类器基于方向梯度直方图(HOG)图像特征执行分类。
17.一种用于训练行人姿势分类模型的***,包括:
处理器;以及
存储指令的非瞬态计算机可读存储介质,所述指令在由所述处理器执行时使得所述处理器:
接收行人的三维(3D)模型;
接收指示如何生成行人的图像的图像参数的集合;
基于接收的所述三维模型和接收的所述图像参数的集合来生成二维(2D)合成图像;
利用所述图像参数的集合对生成的所述合成图像进行注释;以及
通过经注释的所述合成图像训练多个行人姿势分类器。
18.根据权利要求17所述的***,其中所述图像参数的集合包括姿势分类,并且其中训练所述多个行人姿势分类器包括:
响应于所述图像参数的所述姿势分类为第一姿势分类,通过作为正样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第一行人姿势分类器。
19.根据权利要求18所述的***,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为所述第一姿势分类,通过作为负样本的经注释的所述合成图像来训练所述多个行人姿势分类器当中的第二行人姿势分类器。
20.根据权利要求19所述的***,其中训练所述多个行人姿势分类器还包括:
响应于所述图像参数的所述姿势分类为第二姿势分类,通过作为负样本的经注释的所述合成图像来训练所述第一行人姿势分类器,并且通过作为正样本的经注释的所述合成图像来训练所述第二行人姿势分类器。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261745235P | 2012-12-21 | 2012-12-21 | |
US61/745,235 | 2012-12-21 | ||
US14/084,966 US9418467B2 (en) | 2012-12-21 | 2013-11-20 | 3D human models applied to pedestrian pose classification |
US14/084,966 | 2013-11-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886315A true CN103886315A (zh) | 2014-06-25 |
CN103886315B CN103886315B (zh) | 2017-05-24 |
Family
ID=50955198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310714502.6A Active CN103886315B (zh) | 2012-12-21 | 2013-12-20 | 应用于行人姿势分类的3d人体模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886315B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250838A (zh) * | 2016-07-27 | 2016-12-21 | 乐视控股(北京)有限公司 | 车辆识别方法及*** |
CN107689073A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 图像集的生成方法、装置及图像识别模型训练方法、*** |
CN108292358A (zh) * | 2015-12-15 | 2018-07-17 | 英特尔公司 | 用于识别***的合成三维对象图像的生成 |
CN108830248A (zh) * | 2018-06-25 | 2018-11-16 | 中南大学 | 一种行人局部特征大数据混合提取方法 |
CN109155078A (zh) * | 2018-08-01 | 2019-01-04 | 深圳前海达闼云端智能科技有限公司 | 样本图像的集合的生成方法、装置、电子设备和存储介质 |
CN111344800A (zh) * | 2017-09-13 | 2020-06-26 | 皇家飞利浦有限公司 | 训练模型 |
CN111417961A (zh) * | 2017-07-14 | 2020-07-14 | 纪念斯隆-凯特林癌症中心 | 弱监督的图像分类器 |
CN112017276A (zh) * | 2020-08-26 | 2020-12-01 | 北京百度网讯科技有限公司 | 一种三维模型构建方法、装置以及电子设备 |
CN112907658A (zh) * | 2019-11-19 | 2021-06-04 | 华为技术有限公司 | 视觉定位评估方法和电子设备 |
CN112926428A (zh) * | 2017-12-12 | 2021-06-08 | 精工爱普生株式会社 | 使用合成图像训练对象检测算法的方法和***和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147389B (zh) * | 2018-08-16 | 2020-10-09 | 大连民族大学 | 自主汽车或者辅助驾驶***规划路线的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1423795A (zh) * | 2000-11-01 | 2003-06-11 | 皇家菲利浦电子有限公司 | 应用基于外貌和几何特征的统计模型的图形处理***中的人的标记 |
US20120027263A1 (en) * | 2010-08-02 | 2012-02-02 | Sony Corporation | Hand gesture detection |
CN102722715A (zh) * | 2012-05-21 | 2012-10-10 | 华南理工大学 | 一种基于人体姿势状态判决的跌倒检测方法 |
-
2013
- 2013-12-20 CN CN201310714502.6A patent/CN103886315B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1423795A (zh) * | 2000-11-01 | 2003-06-11 | 皇家菲利浦电子有限公司 | 应用基于外貌和几何特征的统计模型的图形处理***中的人的标记 |
US20120027263A1 (en) * | 2010-08-02 | 2012-02-02 | Sony Corporation | Hand gesture detection |
CN102722715A (zh) * | 2012-05-21 | 2012-10-10 | 华南理工大学 | 一种基于人体姿势状态判决的跌倒检测方法 |
Non-Patent Citations (3)
Title |
---|
LEONID PISHCHULIN 等: "《Learning People Detection Models from Few Training Samples》", 《CVRR`11 PROCEEDINGS OF THE 2011 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
MARKUS ENZWEILER,DARIU M. GAVRILA: "《Integrated Pedestrian Classification and Orientation Estimation》", 《2010 IEEE》 * |
谷军霞、丁晓青、王生进: "《基于人体行为3D模型的2D行为识别》", 《自动化学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11574453B2 (en) | 2015-12-15 | 2023-02-07 | Tahoe Research, Ltd. | Generation of synthetic 3-dimensional object images for recognition systems |
CN108292358A (zh) * | 2015-12-15 | 2018-07-17 | 英特尔公司 | 用于识别***的合成三维对象图像的生成 |
US12014471B2 (en) | 2015-12-15 | 2024-06-18 | Tahoe Research, Ltd. | Generation of synthetic 3-dimensional object images for recognition systems |
CN106250838A (zh) * | 2016-07-27 | 2016-12-21 | 乐视控股(北京)有限公司 | 车辆识别方法及*** |
CN107689073A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 图像集的生成方法、装置及图像识别模型训练方法、*** |
CN111417961A (zh) * | 2017-07-14 | 2020-07-14 | 纪念斯隆-凯特林癌症中心 | 弱监督的图像分类器 |
CN111417961B (zh) * | 2017-07-14 | 2024-01-12 | 纪念斯隆-凯特林癌症中心 | 弱监督的图像分类器 |
CN111344800A (zh) * | 2017-09-13 | 2020-06-26 | 皇家飞利浦有限公司 | 训练模型 |
CN112926428B (zh) * | 2017-12-12 | 2024-01-16 | 精工爱普生株式会社 | 使用合成图像训练对象检测算法的方法和***和存储介质 |
CN112926428A (zh) * | 2017-12-12 | 2021-06-08 | 精工爱普生株式会社 | 使用合成图像训练对象检测算法的方法和***和存储介质 |
CN108830248A (zh) * | 2018-06-25 | 2018-11-16 | 中南大学 | 一种行人局部特征大数据混合提取方法 |
CN109155078B (zh) * | 2018-08-01 | 2023-03-31 | 达闼机器人股份有限公司 | 样本图像的集合的生成方法、装置、电子设备和存储介质 |
WO2020024147A1 (zh) * | 2018-08-01 | 2020-02-06 | 深圳前海达闼云端智能科技有限公司 | 样本图像的集合的生成方法、装置、电子设备和存储介质 |
CN109155078A (zh) * | 2018-08-01 | 2019-01-04 | 深圳前海达闼云端智能科技有限公司 | 样本图像的集合的生成方法、装置、电子设备和存储介质 |
CN112907658A (zh) * | 2019-11-19 | 2021-06-04 | 华为技术有限公司 | 视觉定位评估方法和电子设备 |
CN112017276B (zh) * | 2020-08-26 | 2024-01-09 | 北京百度网讯科技有限公司 | 一种三维模型构建方法、装置以及电子设备 |
CN112017276A (zh) * | 2020-08-26 | 2020-12-01 | 北京百度网讯科技有限公司 | 一种三维模型构建方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103886315B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103886315A (zh) | 应用于行人姿势分类的3d人体模型 | |
Wei et al. | Enhanced object detection with deep convolutional neural networks for advanced driving assistance | |
Ertler et al. | The mapillary traffic sign dataset for detection and classification on a global scale | |
Qi et al. | Amodal instance segmentation with kins dataset | |
US11017244B2 (en) | Obstacle type recognizing method and apparatus, device and storage medium | |
Lee et al. | Vpgnet: Vanishing point guided network for lane and road marking detection and recognition | |
Ouyang et al. | Deep CNN-based real-time traffic light detector for self-driving vehicles | |
Li et al. | A unified framework for concurrent pedestrian and cyclist detection | |
US9418467B2 (en) | 3D human models applied to pedestrian pose classification | |
JP6565967B2 (ja) | 路上障害物検出装置,方法,およびプログラム | |
US9213892B2 (en) | Real-time bicyclist detection with synthetic training data | |
US9367735B2 (en) | Object identification device | |
CN102693432B (zh) | 使用可靠局部模型更新来调节畅通路径检测 | |
CN110879950A (zh) | 多级目标分类及交通标志检测方法和装置、设备、介质 | |
CN103886279A (zh) | 使用合成训练数据的实时骑车人检测 | |
CN105404886A (zh) | 特征模型生成方法和特征模型生成装置 | |
Shang et al. | Robust unstructured road detection: the importance of contextual information | |
Dewangan et al. | Towards the design of vision-based intelligent vehicle system: methodologies and challenges | |
Huang et al. | Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation | |
Chen et al. | Salient object detection: Integrate salient features in the deep learning framework | |
Huu et al. | Proposing Lane and Obstacle Detection Algorithm Using YOLO to Control Self‐Driving Cars on Advanced Networks | |
Wu et al. | Realtime single-shot refinement neural network with adaptive receptive field for 3D object detection from LiDAR point cloud | |
CN103295026B (zh) | 基于空间局部聚合描述向量的图像分类方法 | |
CN110422168A (zh) | 车道识别***、方法及自动驾驶汽车 | |
Kozuka et al. | Risky region localization with point supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |