CN106980813B - 机器学习的注视生成 - Google Patents
机器学习的注视生成 Download PDFInfo
- Publication number
- CN106980813B CN106980813B CN201710025230.7A CN201710025230A CN106980813B CN 106980813 B CN106980813 B CN 106980813B CN 201710025230 A CN201710025230 A CN 201710025230A CN 106980813 B CN106980813 B CN 106980813B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- sub
- intermediate image
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title description 18
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims description 44
- 238000012360 testing method Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/166—Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开延伸至用于自动注视生成的方法、***和装置以及更具体地涉及合成显著性地图的生成。用于生成显著性信息的方法包括接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。方法包括通过创建具有一个或多个随机点的中间图像来生成并且存储标签图像。随机点在相应于子区域的区域中具有第一颜色并且中间图像的剩余部分具有第二颜色。生成并且存储标签图像进一步地包括把高斯模糊应用于中间图像。
Description
技术领域
本公开总体上涉及用于自动注视(fixation)生成的方法、***和装置,以及更具体地涉及合成显著性地图的生成。
背景技术
汽车为商业、政府和私人实体提供交通工具的重要部分。自主车辆和驾驶辅助***目前正在被开发并且被部署用于提供安全、减少所需的用户输入量或甚至完全消除用户参与。例如,比如防撞***这样的某些驾驶辅助***可以在人类正在驾驶时监测车辆和其他物体的行驶、位置和速度。当***检测到碰撞或撞击即将发生时,防撞***可以干预并且应用制动器、转向车辆或执行其他规避或安全操纵。作为另一示例,自主车辆可以在很少或没有用户输入的情况下驾驶并且导航车辆。基于传感器数据的用于物体检测的自动***的训练使自动驾驶***或驾驶辅助***能够安全地识别和避开障碍物或安全驾驶通常是必要的。
发明内容
根据本发明的一方面,提供一种方法,该方法包含:
接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
生成并且存储标签图像,生成并且存储标签图像包含:
创建包含在相应于子区域的区域中的具有第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分具有第二颜色,以及
把高斯模糊应用于中间图像。
根据本发明的一实施例,其中生成并且存储标签图像进一步地包含创建并且存储低分辨率的模糊的中间图像。
根据本发明的一实施例,其中应用高斯模糊包含为一个或多个随机点中的每一个生成椭圆形状模糊。
根据本发明的一实施例,本发明方法进一步地包含基于第一图像和标签图像生成显著性地图(saliency map)。
根据本发明的一实施例,其中生成显著性地图包含使用神经网络来生成,神经网络基于第一图像和标签图像输出显著性地图。
根据本发明的一实施例,其中创建包含一个或多个随机点的中间图像包含创建二进制图像。
根据本发明的一实施例,其中创建包含一个或多个随机点的中间图像包含基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目。
根据本发明的一实施例,本发明方法进一步地包含训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
根据本发明的另一方面,提供一种用于生成人工显著性地图的***,该***包含:
配置成接收第一图像和相应于第一图像的地面实况的数据部件,其中地面实况包含第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;
随机部件,该随机部件配置成创建包含在相应于子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分包含第二颜色;
配制成把模糊应用于中间图像以生成标签图像的模糊部件;以及
配置成基于标签图像和第一图像来创建显著性地图的地图部件。
根据本发明的一实施例,本发明***进一步地包含配置成基于显著性地图和标签图像来训练或测试机器学习算法的模型部件。
根据本发明的一实施例,其中地面实况进一步地包含关于关注物体的一个或多个细节,一个或多个细节包含关注物体的分类、方向和相对位置中的一个或多个,并且其中模型部件配置成基于关于关注物体的一个或多个细节来训练或测试。
根据本发明的一实施例,其中模糊部件配置成通过产生低分辨率标签图像来生成标签图像并且其中地图部件配置成基于低分辨率标签图像来创建显著性地图。
根据本发明的一实施例,其中模糊部件配置成应用高斯模糊。
根据本发明的一实施例,其中随机部件配置成基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目并且创建该随机点。
根据本发明的又一方面,提供一种存储指令的计算机可读存储介质,该指令当由一个或多个处理器执行时使一个或多个处理器:
接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;以及
创建包含在相应于子区域的区域中的包含第一颜色的一个或多个随机点的中间图像,中间图像的剩余部分包含第二颜色;
把高斯模糊应用于中间图像以产生标签图像;以及
存储标签图像并且把标签图像与第一图像相关联。
根据本发明的一实施例,其中指令使一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的模糊中间图像存储为标签图像。
根据本发明的一实施例,其中指令进一步地使一个或多个处理器把高斯模糊拟合于椭圆形状的区域。
根据本发明的一实施例,其中指令使一个或多个处理器基于第一图像和标签图像来生成显著性地图,其中生成显著性地图包含使用神经网络来生成,神经网络基于第一图像和标签图像输出显著性地图。
根据本发明的一实施例,其中指令进一步地使一个或多个处理器训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
根据本发明的一实施例,其中指令使一个或多个处理器基于一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建该随机点区域。
附图说明
参考下面的附图描述本公开的非限制性且非详尽的实施方式,其中除另有规定外,在各种视图中的相同的附图标记指的是相同的部分。关于下面的描述和附图,本公开的优势将变得更好理解,在附图中:
图1是说明包括自动驾驶/辅助***的车辆控制***的示例实施方式的示意性框图;
图2是说明用于自动注视生成的***的实施方式的示意性框图;
图3说明驾驶环境的透视图的图像;
图4说明根据一实施例的具有多个随机点的图像;
图5说明根据一实施例的图4的图像的模糊版本;
图6说明根据一实施例的图5的图像的低分辨率版本;
图7是根据一实施方式的说明显著性部件的示例部件的示意性框图;以及
图8是根据一实施方式的说明用于生成合成显著性地图、图像标签或注视数据的方法的示意性流程图。
具体实施方式
为了安全地操作,智能车辆应该能够快速地并且准确地识别行人。关于主动安全性和驾驶员辅助应用,共同的挑战是快速地并且准确地检测场景中的行人和行人的位置。已经利用深度神经网络成功地实现某些分类解决方案。然而,检测和定位仍然是具有挑战性的,因为行人以不同的尺度存在并且在不同的位置。例如,当前的检测和定位技术不能匹配人类确定场景中的关注物体的尺度和位置和/或快速地理解场景的“要点(gist)”的能力。
申请人已经开发了改善自动行人定位和检测的***、装置和方法。至少一个实施例使用物体检测的两阶段计算机视觉方法。在第一阶段,传感器数据(比如图像)的一个或多个区域被识别为更可能包括关注物体(比如行人)。例如,第一阶段可以产生显著性地图形式的可能区域的指示,物***于该可能区域中。第二阶段确定关注物体是否实际上存在于在第一阶段中识别的一个或多个区域内。例如,第二阶段可以使用第一阶段输出的显著性地图和原始图像的至少一部分来确定关注物体是否实际上存在于一个或多个区域内。然而,或者可以在第一阶段或者可以在第二阶段中使用的神经网络或其他模型可能首先需要被训练并且被测试。因为获取可以用于训练神经网络、模型或算法的传感器数据、显著性地图或其他数据可以是非常困难耗费时间的和/或昂贵的,所以实施上述两阶段方法可以是非常困难或昂贵的。
根据前述内容,申请人已经开发合成显著性地图的创建和使用的解决方案。这些合成显著性地图可以用于深度学习算法的训练或测试并且显著地减少该深度学习算法的训练或测试所需的时间和成本。根据一实施例,方法包括接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。方法包括生成并且存储标签图像。生成标签图像包括创建包括在相应于子区域的区域中具有第一颜色的一个或多个随机点的中间图像,同时该中间图像的剩余部分具有第二颜色。生成标签图像也包括把高斯模糊应用于中间图像。
根据某些实施例,可以基于关注物体的图像和相关地面实况边界框生成人工显著性地图。可以用在边界框内(或在相应于边界框的区域内)的若干随机点生成图像。标签上每个随机生成的点制成白色像素并且图像中所有其他随机生成的点是黑色的。将高斯模糊或其他模糊应用于二进制图像并且以低分辨率存储为用于相应图像的标签。标签和原始图像可以被输入深度神经网络,该深度神经网络输出用于预测图像中关注物体的位置的显著性地图。深度神经网络可以与由M.Kummerer,L.Theis和M.Bethge(2014年11月)在“深度注视I:用在ImageNet上训练的特征地图提高显著性预测(Deep Gaze I:Boosting SaliencyPrediction with Feature Maps Trained on ImageNet)”中讨论和描述的那些相似。
如在此所使用的,术语“注视”指的是提醒注意传感器数据的地区或区域的指示或标签,信息可以在该地区或区域中呈现。例如,识别在图像内的区域的信息是注视的一种类型的指示,物体识别算法应该在该区域中寻找物体。同样,任何区域标识符可以在此称为注视,显著或相关信息位于该区域中。在一实施例中,通过确定注视区域,可以需要较少的时间和处理资源来检测物体或基于传感器数据来做出其他确定,因为可能需要分析不到所有的传感器数据。
在一实施例中,可以使用低分辨率标签或显著性地图。例如,视觉心理研究已经表明来自较低分辨率图像的注视可以预测在更高分辨率图像上的注视。因此,非常低分辨率版本的人工显著性作为相应图像的标签的使用是可能的并且可以减少所需的计算能力。此外,模糊可以拟合椭圆以更好地预测物体的尺度和位置。例如,行人通常具有大于宽度的高度并且垂直地定向。因此,垂直长圆形的椭圆可以用作模糊的形状。
在一实施例中,本公开把显著性地图应用于物体检测,这是当前技术水平的改进。此外,在一实施例中,本公开在没有收集数据集上新的目光注视注释的详尽工作的情况下创建合成显著性地图以模仿人类感知。此外,至少某些实施例中产生的数据不需要消除中心偏差,该中心偏差通常是基于人类注视产生的注视注释或数据集所需的。
现在参考附图,图1说明示例车辆控制***100,该车辆控制***100可以用于自动地检测、分类和/或定位物体。自动驾驶/辅助***102可以用于自动操作或控制车辆的操作或为人类驾驶员提供辅助。例如,自动驾驶/辅助***102可以控制车辆的制动、转向、加速、照明、警报、驾驶员通知、无线电或任何其他辅助***中的一个或多个。在另一示例中,自动驾驶/辅助***102可能不能提供任何驾驶控制(例如,转向、加速或制动),但可以提供通知和警报以帮助人类驾驶员安全驾驶。自动驾驶/辅助***102可以使用神经网络或者其他模型或算法以基于由一个或多个传感器收集的感知数据来检测或定位物体。
车辆控制***100也包括一个或多个用于检测母车辆附近(例如,包括车辆控制***100的车辆)或在母车辆(例如,包括车辆控制***100的车辆)的传感器范围内的物体的存在的传感器***/装置。例如,车辆控制***100可以包括一个或多个雷达***106、一个或多个LIDAR(激光雷达)***108、一个或多个摄像机***110、全球定位***(GPS)112和/或一个或多个超声波***114。车辆控制***100可以包括用于存储比如地图数据、驾驶历史或其他数据这样的用于导航和安全性的相关或有用数据的数据存储器116。车辆控制***100也可以包括用于与移动或无线网络、其他车辆、基础设施或任何其他通信***无线通信的收发器118。
车辆控制***100可以包括车辆控制执行器120以控制车辆的驾驶的各个方面,比如电动马达、开关或其他执行器以用于控制制动、加速、转向等。车辆控制***100也可以包括一个或多个显示器122、扬声器124或其他装置以便可以为人类驾驶员或乘客提供通知。显示器122可以包括抬头显示器、仪表盘显示器或指示器、显示屏幕或可以被车辆的驾驶员或乘客看到的任何其他视觉指示器。扬声器124可以包括车辆的音响***的一个或多个扬声器或可以包括专用于驾驶员通知的扬声器。
将要领会的是,仅通过示例给出图1的实施例。其他实施例在没有背离本公开的保护范围的情况下可以包括较少部件或附加部件。此外,图示部件可以没有限制地结合在或包括在其他部件内。
在一实施例中,自动驾驶/辅助***102配置成控制母车辆的驾驶或导航。例如,自动驾驶/辅助***102可以控制车辆控制执行器120沿着道路、停车场、车道或其他位置上的路径驾驶。例如,自动驾驶/辅助***102可以基于由部件106-118中的任何一个提供的信息或感知数据来确定路径。传感器***/装置106-110和114可以用于获取实时传感器数据以便自动驾驶/辅助***102可以实时帮助驾驶员或驾驶车辆。自动驾驶/辅助***102可以实施算法或使用比如深度神经网络这样的模型来处理传感器数据以检测、识别和/或定位一个或多个物体。然而,为了训练或测试模型或算法,可能需要大量的传感器数据和传感器数据的注释。
现在参考图2,显示用于自动注视生成的***200的一实施例。***200包括显著性部件202、存储器204、训练部件206和测试部件208。显著性部件202配置成基于数据图像和地面实况数据来确定显著性信息。数据图像可以包括一帧的传感器数据并且地面实况(ground truth)可以包括关于该帧传感器数据的信息。例如,地面实况可以包括在传感器数据范围内的关注物体的一个或多个边界框、分类、方向和/或相对位置。边界框可以包括相应于一个或多个关注物体的在数据图像范围内的一个或多个子区域的指示。分类可以包括检测物体的类型或分类的指示。例如,分类可以指示检测物体是车辆、行人、骑自行车者、摩托车、道路碎片、道路标志、车道屏障、树或植物、建筑物、停车屏障、人行道或在道路上的或道路附近的任何物体或特征。方向可以指示物体的方向或物体的行进方向,比如车辆、行人或任何其他物体的方向或行进方向。相对位置可以指示车辆和物体之间的距离。
显著性部件202可以通过基于数据图像和/或地面实况自动地生成人工标签或人工显著性地图来确定显著性信息。根据一实施例,显著性部件202可以在指示的边界框内生成多个随机点(其被设置为白色像素)、把所有其他的像素设置为黑色、对图像执行高斯模糊以产生标签、存储标签的低分辨率版本、以及基于数据和标签信息生成显著性地图以预测图像中物体的位置。显著性部件202可以向存储器204输出显著性数据210和/或把显著性数据210存储至存储器204。例如,显著性数据可以把标签图像或显著性地图存储为显著性数据210的一部分。
训练部件206配置成使用数据图像和任何相应地面实况或显著性数据210来训练机器学习算法。例如,训练部件206可以通过给一帧的传感器数据提供相应标签图像或显著性地图来训练机器学习算法或模型以在任何图像中输出关注物体的显著性地图或预测位置来训练机器学习算法或模型。例如,机器学习算法或模型可以包括用于识别图像的一个或多个区域的深度神经网络,该区域包括比如行人、车辆或要由自动驾驶/辅助***102检测或定位的其他物体这样的关注物体。在一实施例中,深度神经网络可以以显著性地图或指示图像的注视或显著性子区域的任何其他格式的形式输出区域的指示。
测试部件208可以使用显著性数据210测试机器学习算法或模型。例如,测试部件208可以为机器学习算法或模型提供图像或其他传感器数据帧,该机器学习算法或模型然后输出显著性地图或者注视或显著性的其他指示。作为另一示例,测试部件208可以为机器学习算法或模型提供图像或其他传感器数据帧,该机器学习算法或模型确定关于关注物体的分类、位置、方向或其他数据。测试部件208可以把机器学习算法或模型的输出与人工显著性地图或地面实况相比较以确定如何执行模型或算法。例如,如果由机器学习算法或模型确定的显著性地图或其他细节是相同的或相似的,则测试部件208可以确定机器学习算法或模型是准确的或很好地被训练以用于现实世界***中的操作,比如图1的自动驾驶/辅助***102。
图3说明可以在驾驶环境中捕捉的图像300的透视图。例如,图像300说明在车辆前面的道路的场景,该场景在车辆正沿着道路行驶时可以被捕捉。图像300包括在道路上的或道路附近的多个关注物体。在一实施例中,图像300可以具有相关边界框信息,该相关边界框信息定义用于包括关注物体的图像300的子区域的多个边界框。具体地,为包括行人的区域定义第一边界框302、第二边界框304和第三边界框306,该行人可以是一种类型的关注物体或其他关注物体。例如,图像和相关边界框302-306可以用于训练神经网络以检测行人或其他关注物体或者测试神经网络检测行人或其他关注物体的能力。其他实施例可以包括图像和/或用于任何类型的关注物体或用于多种类型的关注物体的边界框。
在一实施例中,边界框信息可以被包括作为图像300的地面实况的一部分。图像300可以用地面实况注释或地面实况可以被包括作为单独文件的一部分。在一实施例中,图像300可以保持是未注释的以便可以测试或训练神经网络或者其他机器学习算法或模型。在一实施例中,地面实况可以包括定义边界框302-306的信息,比如x-y坐标或每一个边界框的边缘或中心的其他描述。地面实况也可以包括关于包括在边界框中的是什么(例如,关注物体的类型)的信息或关于距传感器的距离的信息或关于关注物体的其他细节。
显著性部件202可以接收图像300和任何相关地面实况并且生成用于图像的标签和/或显著性地图。在一实施例中,显著性部件202可以通过使除了由地面实况指示的在每个边界框内的一个或多个随机点以外的所有像素是黑色的来创建新的图像并且把模糊应用于该图像来生成标签。图4-6说明关于标签图像的生成的一实施例。
图4说明第一中间图像400。第一中间图像400包括图像,在该图像中除了在相应于图3的边界框302-306的第一区域402、第二区域404和第三区域406内的多个随机点以外的所有像素是黑色的。例如,显著性部件202可以随机生成在每一个区域402-406内的点。每个随机点可以包括一个或多个像素。区域402-406的区域标记显示用于说明的目的并且可能不被包括作为第一中间图像400的一部分。虽然第一中间图像400以黑色和白色显示,某些实施例可以包括灰度、颜色或可用图像类型的任何其他组合。
在一实施例中,在区域402-406内的随机点的数量是基于该区域的大小或面积。例如,第二区域404是最小的区域并且仅具有一个随机点并且第三区域406是最大的区域并且具有九个随机点。第一区域402比第三区域小,但比第二区域404大并且具有三个随机点。在一实施例中,区域402-406的面积或者一个或多个尺寸可以用于计算随机点的数目。随机数发生器或其他随机化算法可以用于生成在每个区域402-406内的随机点。
图5说明第二中间图像500。第二中间图像500包括具有在黑色背景上的多个白色模糊区域502-506的图像。模糊区域502-506包括分别相应于图4的第一区域402、第二区域404和第三区域406的第一模糊区域502、第二模糊区域504和第三模糊区域506。显著性部件202可以通过把模糊应用于图4的第一中间图像400来生成第二图像500。例如,显著性部件202可以通过把高斯模糊应用于第一中间图像400来生成第二图像500,在此情况下模糊被设计用于创建椭圆形状(例如,具有与垂直参数不同的水平参数的二维模糊)。每个椭圆可以由第一中间图像400中的随机点中的一个产生。在一实施例中,第二中间图像500是应用于包含第一中间图像400的黑白图像(例如二进制图像)的模糊结果。某些实施例可以包括灰度或彩色图像,所以超过两种颜色是可能的。例如,模糊灰度或彩色图像可以导致在白色模糊区域502-506内的梯度。在一实施例中,模糊大小或椭圆大小可以基于区域402-406的区域的位置或大小。例如,较大区域可以接受较大的椭圆大小和/或在图像400上垂直向上更高定位的区域可以接受较小的椭圆大小。
在一实施例中,第二中间图像500可以用作图3的图像300的标签。例如,模糊502-506可以指示图3的数据图像300的区域,该区域应该被处理或分析用于物体检测或识别。在一实施例中,第二中间图像500可以与数据图像300结合以生成显著性地图,该显著性地图可以被处理用于物体识别或检测。在一实施例中,显著性部件202可以把第二中间图像500和图像300输入到神经网络中,该神经网络输出显著性地图。在一实施例中,显著性部件202可以把第二中间图像500和图像300输入到训练部件206或测试部件208中以训练或测试神经网络的操作。例如,神经网络可以被训练以基于图像输出标签或显著性地图。作为另一示例,通过为神经网络提供图像300并且把产生的显著性地图或标签与第二中间图像500相比较,可以测试神经网络它产生显著性地图或标签的效果如何。
图6说明是第二中间图像500的低分辨率版本的低分辨率图像600。例如,低分辨率显著性地图或标签可以在显著性或注视预测上很少或没有减少的情况下显著性地减少处理资源或处理时间。在一实施例中,显著性部件202可以把低分辨率图像600保存为用于图3的图像300的标签。在低分辨率的情况下,低分辨率图像600包括低分辨率模糊区域602-606,该低分辨率模糊区域602-606包括第一低分辨率模糊区域602、第二低分辨率模糊区域604和第三分辨率区域606。
在一实施例中,低分辨率图像600可以用作用于图3的图像300的标签。例如,低分辨率模糊区域602-606可以指示图3的数据图像300的区域,该区域应该被处理或分析用于物体检测或识别。在一实施例中,低分辨率图像600可以与数据图像300结合以生成显著性地图,该显著性地图可以被处理用于物体识别或检测。在一实施例中,显著性部件202可以把低分辨率图像600和图像300输入至神经网络中,该神经网络输出显著性地图。在一实施例中,显著性部件202可以把低分辨率图像600和图像300输入至训练部件206或测试部件208中以训练或测试神经网络的操作。例如,神经网络可以被训练以基于图像300(或任何其他图像)输出标签或显著性地图。作为另一示例,通过为神经网络提供图像300并且把产生的显著性地图或标签与低分辨率图像600相比较,可以测试神经网络它产生显著性地图或标签的效果如何。
在一实施例中,低分辨率图像600将在训练——例如在深度神经网络的训练中——被用作图3的相应全图像300的标签。以这种方式,当任何图像输入至网络中时,在已经训练网络之后,产生相应标签(可能的显著性区域的地图)。此外,(低分辨率)显著性地图可以经历后处理——例如用原始图像阈值化——以提取要被输入至用于关注物体的分类器中的关注区域(例如,检测行人)。
虽然上面关于图像讨论了图3-6,但其他类型的传感器数据帧被预期在本公开的保护范围内。例如,LIDAR帧、雷达帧、超声波帧或可以根据上面提供的过程和教导处理的其他类型的传感器数据帧。例如,数据帧和用于数据帧的子区域的边界框可以被处理以产生用于任何类型的数据帧的标签。
图7是说明显著性部件202的示例部件的框图。在描绘的实施例中,显著性部件202包括数据部件702、随机部件704、模糊部件706、地图部件708和模型部件710。部件702-710仅通过图示给出并且可能不全部包括在所有实施例中。实际上,某些实施例可以仅包括部件702-710中的一个或者部件702-710中的两个或两个以上的任何组合。部件702-710中的某些可以位于显著性部件202的外部。
数据部件702配置成接收数据图像或其他传感器数据以及关于数据图像或传感器数据的任何地面实况。例如,数据部件702可以接收由摄像机捕捉的图像和图像内相应于一个或多个关注物体的一个或多个子区域的指示。图像可以包括车辆附近的场景的图像。例如,图像可以包括由车载摄像机捕捉的图像。在一实施例中,图像可以包括模拟道路或驾驶环境的计算机生成图像。
地面实况可以包括关于驾驶环境的真实世界或虚拟世界地面实况,在该驾驶环境中捕捉图像。例如,地面实况可以包括关于关注物体的一个或多个细节,比如分类、方向和关注物体相对于摄像机的相对位置。在一实施例中,地面实况包括边界框信息或定义图像的区域的其他信息,关注物***于该区域中。边界框可以从已经观看到图像的人类的输入得到或可以由计算机生成。在一实施例中,基于当人类看图像时人类看的地方得到边界框信息或边界框信息可以基于由人类提供的明确输入,该边界框信息识别关注物***于哪里(例如,在显示图像时通过使用鼠标、触摸屏或在其他装置沿着区域拖拽框)。在一实施例中,边界框信息可以由计算机生成。例如,如果由计算机基于模拟的三维环境生成数据图像,则计算机也可以生成边界框或指示计算机生成图像的区域的其他信息,关注物***于该区域中。
随机部件704配置为生成图像,该图像具有在由边界框定义或相应于边界框的区域内的一个或多个随机点。例如,随机部件704可以创建包括在相应于边界框的区域中具有第一颜色的一个或多个随机点的图像(比如图4的中间图像400),并且该图像的剩余部分具有第二颜色。在一实施例中,随机部件704创建二进制图像,该二进制图像除了在每个边界框区域内的一个或多个随机点以外是黑色的。在一实施例中,二进制图像可以包括具有任何颜色的两种不同的颜色。例如,二进制图像不一定是黑色背景上的白色点,但可以包括两种或多种颜色的任何组合。在一实施例中,随机部件704创建图像,该图像具有作为灰度或彩色图像的一部分的随机点。
随机部件704可以使用随机数发生器或其他随机化算法来生成随机点。随机部件704可以在相应于由数据部件702接收的地面实况中指示的区域的区域内生成随机点。在一实施例中,随机部件704可以基于区域的大小在区域内生成若干随机点。例如,随机部件704可以基于子区域的大小来确定要在子区域中生成的随机点的数目。例如,具有较大面积的区域可以具有比具有较小面积的区域更多的随机点。
模糊部件706配置成把模糊算法应用于由随机部件704创建的图像,比如图4的第一中间图像400。在一实施例中,模糊部件706可以把高斯模糊应用于包含一个或多个随机点的图像。模糊部件706可以模糊随机点以遍布较大的面积并且由此模拟相应于边界框的区域。模糊可以基于关注物体的类型而拟合于或适用于特殊形状。例如,垂直长圆形椭圆可以反映行人的大概形状。在一实施例中,模糊算法可以设计用于产生所需的模糊形状。例如,模糊算法可以在水平方向上与在垂直方向上不同地模糊图像以生成垂直或水平长圆形形状。也可以使用其他模糊算法。在一实施例中,模糊图像(参照例如图5)可以用作由数据部件702接收的相应数据图像的标签图像。在另一实施例中,低分辨率图像(参照例如图6)可以被存储并且被用作由数据部件702接收的相应数据图像的标签图像。
地图部件708配置成基于比如由随机部件704和/或模糊部件706生成的标签图像这样的标签图像生成用于数据图像的显著性地图。在一实施例中,地图部件708配置成基于数据图像和标签图像生成显著性地图。在一实施例中,地图部件708配置成使用神经网络生成显著性地图,该神经网络基于作为输入的数据图像和标签图像来输出显著性地图。显著性地图可以包括由随机部件704和/或模糊部件706产生的标签图像或另一图像定义的在模糊区域或其他区域内的数据图像的一个或多个细节。在一实施例中,地图部件708可以使用阈值算法通过用标签图像覆盖数据图像来生成显著性地图。例如,数据图像可以在相应于标签的黑色部分的区域中转换成黑色,同时在显著性地图内相应于白色区域的数据图像的部分可以转换成灰度。
模型部件710配置成为用于机器学习算法或模型的测试或训练的算法提供虚拟传感器数据和/或地面实况。例如,模型部件710可以为图2的训练部件206或测试部件208提供数据图像和标签图像。在另一实施例中,模型部件710可以包括训练部件206和/或测试部件208。例如,数据图像和/或标签图像可以用于训练或测试神经网络、深度神经网络和/或卷积神经网络以输出标签图像或显著性地图。例如,机器学习算法或模型可以被训练或测试以包含在图1的自动驾驶/辅助***102中。在一实施例中,模型部件710提供用于训练或测试神经网络的数据图像和标签图像以基于该标签图像来确定关于一个或多个物体的信息。在一实施例中,模型部件710基于显著性地图和标签图像提供用于训练或测试机器学习算法的数据图像和标签图像。例如,数据图像和/或标签图像可以用于训练神经网络输出标签图像或显著性地图。在训练之后,神经网络然后可以能够仅给定摄像机图像的情况下产生标签图像或显著性地图图像,该标签图像或显著性地图图像指示关注物体可以位于那里的区域。
现在参考图8,说明用于生成合成显著性地图或图像标签的方法800的示意性流程图。方法800可以由显著性部件或用于自动注视生成的***执行,比如图2或7的显著性部件202或图2的***200。
方法800开始并且在802中数据部件702接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。在804中随机部件704创建包括在背景上的一个或多个随机点的中间图像。随机点具有第一颜色并且位于相应于子区域的区域内并且中间图像的剩余部分具有第二颜色。在806中模糊部件706把模糊应用于中间图像并且在808中存储模糊的中间图像。
示例
下面的示例与更多实施例有关。
示例1是包括接收第一图像和该第一图像内相应于一个或多个关注物体的一个或多个子区域的指示的方法。方法包括生成并且存储标签图像。生成标签图像包括创建中间图像,该中间图像具有在相应于子区域的区域中的具有第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。方法包括把高斯模糊应用于中间图像并且把模糊的中间图像存储为标签图像。
在示例2中,在示例1中的生成标签图像进一步地包括创建并且存储模糊的中间图像的低分辨率版本。
在示例3中,在示例1-2中的任一个中的应用高斯模糊包括为一个或多个随机点中的每一个生成椭圆形状模糊。
在示例4中,示例1-3中的任一个中的方法进一步地包括基于第一图像和标签图像生成显著性地图。
在示例5中,在示例4中的生成显著性地图包括使用神经网络来生成,该神经网络基于第一图像和标签图像输出显著性地图。
在示例6中,在示例1-5中的任一个中的创建中间图像包括创建二进制图像。
在示例7中,在示例1-6中的任一个中的创建中间图像包括基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目。
在示例8中,示例1-7中的任一个中的方法进一步地包括训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息或基于数据图像生成标签图像和显著性地图中的一个或多个。
示例9是包括数据部件、随机部件、模糊部件和地图部件的用于生成人工显著性地图的***。数据部件配置成接收第一图像和相应于第一图像的地面实况。地面实况包括第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。随机部件配置成创建中间图像,该中间图像包括在相应于子区域的区域中的具有第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。模糊部件配置成把模糊应用于中间图像以生成标签图像。地图部件配置成基于标签图像和第一图像来创建显著性地图。
在示例10中,示例9的***进一步地包括配置成基于显著性地图和标签图像来训练或测试机器学习算法的模型部件。
在示例11中,在示例9中的地面实况进一步地包括关于关注物体的一个或多个细节,该一个或多个细节包含关注物体的分类、方向和相对位置中的一个或多个。模型部件配置成基于关于关注物体的一个或多个细节训练或测试机器学习算法或模型。
在示例12中,在示例9-11中的任一个中的模糊部件配置成通过产生低分辨率标签图像来生成标签图像并且地图部件配置成基于该低分辨率标签图像来创建显著性地图。
在示例13中,在示例9-12中的任一个中的模糊部件配置成应用高斯模糊。
在示例14中,在示例9-13中的任一个中的随机部件配置成基于一个或多个子区域的子区域大小来确定一个或多个子区域的子区域中的随机点的数目并且创建该随机点。
示例15是存储指令的计算机可读存储介质,该指令当由一个或多个处理器执行时使该一个或多个处理器接收第一图像和第一图像内相应于一个或多个关注物体的一个或多个子区域的指示。指令进一步地使一个或多个处理器创建中间图像,该中间图像具有在相应于子区域的区域中的包含第一颜色的一个或多个随机点。中间图像的剩余部分具有第二颜色。指令进一步地使一个或多个处理器把高斯模糊应用于中间图像以产生标签图像。指令进一步地使一个或多个处理器存储标签图像并且把标签图像与第一图像相关联。
在示例16中,示例15的指令进一步地使一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的模糊中间图像存储为标签图像。
在示例17中,在示例15-16中的任一个中的指令进一步地使一个或多个处理器把高斯模糊拟合于椭圆形状的区域。
在示例18中,在示例15-17中的任一个中的指令使一个或多个处理器使用神经网络基于第一图像和标签图像来生成显著性地图,该神经网络基于第一图像和标签图像来输出显著性地图。
在示例19中,在示例15-18中的任一个中的指令进一步地使一个或多个处理器训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
在示例20中,在示例15-19中的任一个中的指令使一个或多个处理器基于一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建该随机点区域。
示例21是包括用于实施方法或实现如示例1-20中的任一个中的***或装置的手段的***或装置。
在上述公开中,参考形成其的一部分的附图,并且在附图中例示了本公开可以在其中实行的具体实施方式。应该理解的是,可以利用其它实施方式并且可以在不背离本公开的保护范围的情况下做出结构变化。说明书中提到的“一实施例”、“实施例”、“示例实施例”等指示描述的实施例可以包括特定的特征、结构或特性,但每一实施例可能不一定包括该特定的特征、结构或特性。此外,这样的短语不一定指的是同一实施例。此外,当特定的特征、结构或特性与实施例一起描述时,认为对与无论是否明确地描述的其他实施例结合的这样的特征、结构或特性进行改变是在本领域技术人员的知晓的范围内。
如在此所使用的,“自主车辆”可以是完全独立于人类驾驶员起作用或操作的车辆;或可以是如下车辆,该车辆在某些情况下独立于人类驾驶员起作用或操作同时在其他情况下人类驾驶员可以能够操作该车辆;或可以是主要由人类驾驶员操作——但在自动驾驶/辅助***的帮助下——的车辆。
在此公开的***、装置和方法的实施方式可以包含或利用包括比如在此所讨论的一个或多个处理器和***存储器这样的计算机硬件的专用计算机或通用计算机。在本公开的保护范围内的实施方式也可以包括用于承载或存储计算机可执行指令和/或数据结构的物理介质或其他计算机可读介质。这样的计算机可读介质可以是可以由通用计算机***或专用计算机***访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。承载计算机可执行指令的计算机可读介质是传输介质。因此,通过示例,而不是限制,本公开的实施方式可以包含至少两个明显不同种类的计算机可读介质:计算机存储介质(装置)和传输介质。
计算机存储介质(装置)包括RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦可编程只读存储器)、CD-ROM(紧凑型光盘只读存储器)、固态硬盘(“SSD”)(例如,基于RAM)、闪速存储器、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储器、磁盘存储器或其他磁存储装置或任何其他介质,该其他介质可以用于存储计算机可执行指令或数据结构形式的所需程序代码工具并且该其他介质可以由通用计算机或专用计算机访问。
在此公开的装置、***和方法的实施方式可以通过计算机网络通信。“网络”被定义为实现计算机***和/或模块和/或其他电子装置之间的电子数据的传输的一个或多个数据链路。当信息通过网络或另一通信连接(或者硬连线、无线、或者硬连线或无线的组合)传输或提供至计算机时,该计算机正确地把连接看作传输介质。传输介质可以包括网络和/或数据链路,该传输介质可以用于承载计算机可执行指令或数据结构形式的所需程序代码工具并且该传输介质可以由通用计算机或专用计算机访问。上述的组合也应该包括在计算机可读介质的保护范围内。
计算机可执行指令包含例如指令和数据,该指令和数据——当在处理器上执行时——使通用计算机、专用计算机或专用处理装置执行某一功能或一组功能。计算机可执行指令可以是例如二进制、比如汇编语言或甚至源代码这样的中间格式指令。虽然已经针对结构特征和/或方法论行为用语言描述了主题,但应该理解的是,在从属权利要求中定义的主题不一定限于上述描述的特征或行为。相反,描述的特征和行为公开为实施权利要求的示例形式。
本领域技术人员将领会到本公开可以在具有许多类型的计算机***配置的网络计算环境中实行,包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器***、基于微处理器的或可编程消费电子产品、网络计算机(PC)、小型计算机、大型计算机、移动电话、PDA(个人数字助理)、平板电脑、寻呼机、路由器、开关、各种存储装置等。本公开也可以在分布式***环境中实行,在该分布式***环境中,通过网络(或者通过硬接线数据链路、无线数据链路或通过硬接线数据链路和无线数据链路的组合)链接的本地计算机***和远程计算机***,两者执行任务。在分布式***环境中,程序模块可以位于本地和远程存储器存储装置两者中。
此外,在适当的情况下,在此描述的功能可以在如下的一个或多个中执行:硬件、软件、固件、数字部件或模拟部件。例如,一个或多个专用集成电路(ASIC)可以被编程为执行在此描述的***和程序中的一个或多个。某些术语在说明书和权利要求中用于描述特定的***部件。如本领域技术人员将要领会的是,部件可以由不同的名字描述。本文件不旨在区分在名称而不是功能方面不同的部件。
应该注意的是,在上面讨论的传感器实施例可以包含计算机硬件、软件、固件或其任何组合以执行它们的功能的至少一部分。例如,传感器可以包括配置成在一个或多个处理器中执行的计算机代码,并且可以包括由该计算机代码控制的硬件逻辑/电气电路。这些示例装置在此提供说明的目的,并且不旨在限制。如将要被相关领域中的技术人员所知道的,本公开的实施例可在更多类型的装置中实施。
本公开的至少某些实施例指向包含存储在任何计算机可用介质上的这样的逻辑(例如,以软件的形式)的计算机程序产品。这样的软件——当在一个或多个数据处理装置上执行时——使装置如在此所描述地操作。
虽然已经在上面描述了本公开的各种实施例,但应该理解的是它们仅通过示例呈现但不限制。将对相关领域技术人员显而易见的是,可以在不背离本公开的精神和保护范围的情况下做出形式和细节其中的各种变化。因此,本公开的广度和保护范围应该不应由上述示例性实施例中的任一个限制,而是应该仅根据下面的权利要求和他们的等同物定义。前述说明书已经被呈现用于说明和描述的目的。其并不旨在是详尽的或把本公开限制为公开的精确形式。根据上述教导,许多修改和变化是可能的。此外,应该注意的是,任何或所有前面提到的可选的实施方式可以以所需的任何组合的方式用于形成本公开的附加混合实施方式。
此外,虽然已经描述和说明了本公开的特定实施方式,但本公开不限于像这样描述和说明的部件的特定形式或设置。本公开的保护范围由附于此的权利要求、这里并且在不同申请中提出的任何未来的权利要求以及他们的等同物来定义。
Claims (17)
1.一种用于自动注视生成的方法,所述方法包含:
接收第一图像和所述第一图像内相应于关注物体的地面实况边界框的指示;以及
创建包含在相应于所述地面实况边界框的区域中的具有第一颜色的随机点的二进制的中间图像,所述中间图像的剩余部分具有第二颜色,以及
把高斯模糊应用于所述中间图像的每个所述随机点;
降低应用了所述高斯模糊的所述中间图像的分辨率;
将低分辨率的图像保存为所述第一图像的标签以训练或测试神经网络。
2.如权利要求1所述的方法,其中应用所述高斯模糊包含为一个或多个随机点中的每一个生成椭圆形状模糊。
3.如权利要求1所述的方法,进一步地包含基于所述第一图像和标签图像生成显著性地图。
4.如权利要求3所述的方法,其中生成所述显著性地图包含使用神经网络来生成,所述神经网络基于所述第一图像和所述标签图像输出所述显著性地图。
5.如权利要求2所述的方法,其中创建包含所述一个或多个随机点的所述中间图像包含基于一个或多个子区域的子区域大小来确定所述一个或多个子区域的子区域中的随机点的数目。
6.如权利要求1所述的方法,进一步地包含训练或测试神经网络以基于标签图像来确定关于一个或多个物体的信息。
7.一种用于生成人工显著性地图的***,所述***包含:
配置成接收第一图像和相应于所述第一图像的地面实况边界框的数据部件,其中所述地面实况包含所述第一图像内相应于一个或多个关注物体的一个或多个子区域的指示;
随机部件,所述随机部件配置成创建包含在相应于所述地面实况边界框的区域中的包含第一颜色的随机点的中间图像,所述中间图像的剩余部分包含第二颜色;
配制成把高斯模糊应用于所述中间图像的每个所述随机点;以及
降低应用了所述高斯模糊的所述中间图像的分辨率;
将低分辨率的图像保存为所述第一图像的标签以训练或测试神经网络。
8.如权利要求7所述的***,其中所述地面实况进一步地包含关于所述关注物体的一个或多个细节,所述一个或多个细节包含所述关注物体的分类、方向和相对位置中的一个或多个,所述***还包含模型部件,所述模型部件配置成基于关于所述关注物体的所述一个或多个细节来训练或测试。
9.如权利要求7所述的***,还包含模糊部件,所述模糊部件配置成通过产生低分辨率标签图像来生成所述标签图像;以及地图部件,所述地图部件配置成基于所述低分辨率标签图像来创建显著性地图。
10.如权利要求9所述的***,其中所述模糊部件配置成应用高斯模糊。
11.如权利要求7所述的***,其中所述随机部件配置成基于所述一个或多个子区域的子区域大小来确定所述一个或多个子区域的子区域中的所述随机点的数目并且创建所述随机点。
12.一种存储指令的计算机可读存储介质,所述指令当由一个或多个处理器执行时使所述一个或多个处理器:
接收第一图像和所述第一图像内相应于关注物体的地面实况边界框的指示;以及
创建包含在相应于所述地面实况边界框的区域中的包含第一颜色的随机点的二进制的中间图像,所述中间图像的剩余部分包含第二颜色;
把高斯模糊应用于所述中间图像的每个所述随机点;
降低应用了所述高斯模糊的所述中间图像的分辨率;
将低分辨率的图像保存为所述第一图像的标签以训练或测试神经网络。
13.如权利要求12所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器创建低分辨率的模糊中间图像并且把低分辨率的所述模糊中间图像存储为标签图像。
14.如权利要求12所述的计算机可读存储介质,其中所述指令进一步地使所述一个或多个处理器把所述高斯模糊拟合于椭圆形状的区域。
15.如权利要求13所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器基于所述第一图像和所述标签图像来生成显著性地图,其中生成所述显著性地图包含使用神经网络来生成,所述神经网络基于所述第一图像和所述标签图像输出所述显著性地图。
16.如权利要求13所述的计算机可读存储介质,其中所述指令进一步地使所述一个或多个处理器训练或测试神经网络以基于所述标签图像来确定关于一个或多个物体的信息。
17.如权利要求12所述的计算机可读存储介质,其中所述指令使所述一个或多个处理器基于所述一个或多个子区域的相应子区域大小来确定随机点区域的数目并且创建所述随机点区域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/997,051 | 2016-01-15 | ||
US14/997,051 US10489691B2 (en) | 2016-01-15 | 2016-01-15 | Fixation generation for machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106980813A CN106980813A (zh) | 2017-07-25 |
CN106980813B true CN106980813B (zh) | 2022-09-20 |
Family
ID=58463766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710025230.7A Active CN106980813B (zh) | 2016-01-15 | 2017-01-13 | 机器学习的注视生成 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10489691B2 (zh) |
CN (1) | CN106980813B (zh) |
DE (1) | DE102017100198A1 (zh) |
GB (1) | GB2548456A (zh) |
MX (1) | MX2017000692A (zh) |
RU (1) | RU2016152172A (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217335A1 (en) * | 2009-02-27 | 2016-07-28 | GM Global Technology Operations LLC | Stixel estimation and road scene segmentation using deep learning |
US8977376B1 (en) | 2014-01-06 | 2015-03-10 | Alpine Electronics of Silicon Valley, Inc. | Reproducing audio signals with a haptic apparatus on acoustic headphones and their calibration and measurement |
US10540768B2 (en) * | 2015-09-30 | 2020-01-21 | Samsung Electronics Co., Ltd. | Apparatus and method to segment object from image |
US9996771B2 (en) * | 2016-02-15 | 2018-06-12 | Nvidia Corporation | System and method for procedurally synthesizing datasets of objects of interest for training machine-learning models |
US10210451B2 (en) * | 2016-07-22 | 2019-02-19 | Alpine Electronics of Silicon Valley, Inc. | Neural network applications in resource constrained environments |
US10552968B1 (en) * | 2016-09-23 | 2020-02-04 | Snap Inc. | Dense feature scale detection for image matching |
WO2018091486A1 (en) | 2016-11-16 | 2018-05-24 | Ventana Medical Systems, Inc. | Convolutional neural networks for locating objects of interest in images of biological samples |
CN107093210B (zh) * | 2017-04-20 | 2021-07-16 | 北京图森智途科技有限公司 | 一种激光点云标注方法及装置 |
US10474908B2 (en) * | 2017-07-06 | 2019-11-12 | GM Global Technology Operations LLC | Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation |
KR102498597B1 (ko) * | 2017-08-22 | 2023-02-14 | 삼성전자 주식회사 | 전자 장치 및 이를 이용하여 관심 영역을 설정하여 오브젝트를 식별하는 방법 |
WO2019049133A1 (en) * | 2017-09-06 | 2019-03-14 | Osr Enterprises Ag | SYSTEM AND METHOD FOR GENERATING TRAINING DOCUMENTS FOR A VIDEO CLASSIFIER |
US11004186B2 (en) * | 2017-09-21 | 2021-05-11 | Primitive LLC | Parcel change detection |
US11042770B2 (en) * | 2017-10-09 | 2021-06-22 | EagleSens Systems Corporation | Artificial intelligence based image data processing method and image sensor |
EP3477616A1 (en) * | 2017-10-27 | 2019-05-01 | Sigra Technologies GmbH | Method for controlling a vehicle using a machine learning system |
GB2568286B (en) * | 2017-11-10 | 2020-06-10 | Horiba Mira Ltd | Method of computer vision based localisation and navigation and system for performing the same |
US11137761B2 (en) | 2017-11-20 | 2021-10-05 | At&T Intellectual Property I, L.P. | Object modeling with adversarial learning |
DE102017127592A1 (de) * | 2017-11-22 | 2019-05-23 | Connaught Electronics Ltd. | Verfahren zum Klassifizieren von Bildszenen in einem Fahrunterstützungssystem |
US11210537B2 (en) * | 2018-02-18 | 2021-12-28 | Nvidia Corporation | Object detection and detection confidence suitable for autonomous driving |
US11282385B2 (en) * | 2018-04-24 | 2022-03-22 | Qualcomm Incorproated | System and method of object-based navigation |
US11100366B2 (en) * | 2018-04-26 | 2021-08-24 | Volvo Car Corporation | Methods and systems for semi-automated image segmentation and annotation |
US10754344B2 (en) * | 2018-07-19 | 2020-08-25 | Toyota Research Institute, Inc. | Method and apparatus for road hazard detection |
JPWO2020031948A1 (ja) * | 2018-08-06 | 2021-08-10 | 国立大学法人 東京大学 | レーザ加工システムに用いられる機械学習方法、シミュレーション装置、レーザ加工システム並びにプログラム |
US11430084B2 (en) * | 2018-09-05 | 2022-08-30 | Toyota Research Institute, Inc. | Systems and methods for saliency-based sampling layer for neural networks |
JP7222216B2 (ja) * | 2018-10-29 | 2023-02-15 | 株式会社アイシン | 運転支援装置 |
US11270162B2 (en) * | 2018-10-30 | 2022-03-08 | Here Global B.V. | Method and apparatus for detecting objects of interest in an environment |
US10929714B2 (en) | 2018-11-19 | 2021-02-23 | Ford Global Technologies, Llc | High-throughput automated annotation of visual data for training neural networks used for landmark detection |
US11663463B2 (en) * | 2019-07-10 | 2023-05-30 | Adobe Inc. | Center-biased machine learning techniques to determine saliency in digital images |
CN110598741B (zh) * | 2019-08-08 | 2022-11-18 | 西北大学 | 一种像素级标签自动生成模型构建、自动生成方法及装置 |
US10803334B1 (en) | 2019-10-18 | 2020-10-13 | Alpine Electronics of Silicon Valley, Inc. | Detection of unsafe cabin conditions in autonomous vehicles |
CN110962828B (zh) * | 2019-12-23 | 2021-11-02 | 奇瑞汽车股份有限公司 | 预测电动汽车制动压力的方法和设备 |
US11636339B2 (en) * | 2020-04-03 | 2023-04-25 | Micron Technology, Inc. | In-memory content classification and control |
US11295180B1 (en) * | 2020-10-06 | 2022-04-05 | Volkswagen Aktiengesellschaft | Fast acquisition of labeled vehicular data from multiple data sources |
CN112381736A (zh) * | 2020-11-17 | 2021-02-19 | 深圳市歌华智能科技有限公司 | 一种基于场景分块的图像增强方法 |
US20240013525A1 (en) * | 2020-12-03 | 2024-01-11 | National University Of Singapore | Method and System for Training a Neural Network |
US11755189B2 (en) * | 2021-10-25 | 2023-09-12 | Datagen Technologies, Ltd. | Systems and methods for synthetic data generation |
WO2023136418A1 (en) * | 2022-01-13 | 2023-07-20 | Samsung Electronics Co., Ltd. | Method and electronic device for automatically generating region of interest centric image |
CN115797375B (zh) * | 2023-02-06 | 2023-05-09 | 厦门农芯数字科技有限公司 | 基于鱼眼图像实现多组标签图像的生成方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496023A (zh) * | 2011-11-23 | 2012-06-13 | 中南大学 | 像素层面的感兴趣区域提取方法 |
CN103886279A (zh) * | 2012-12-21 | 2014-06-25 | 本田技研工业株式会社 | 使用合成训练数据的实时骑车人检测 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8593542B2 (en) * | 2005-12-27 | 2013-11-26 | DigitalOptics Corporation Europe Limited | Foreground/background separation using reference images |
JP5001286B2 (ja) * | 2005-10-11 | 2012-08-15 | プライム センス リミティド | 対象物再構成方法およびシステム |
US8620026B2 (en) * | 2011-04-13 | 2013-12-31 | International Business Machines Corporation | Video-based detection of multiple object types under varying poses |
US8675966B2 (en) | 2011-09-29 | 2014-03-18 | Hewlett-Packard Development Company, L.P. | System and method for saliency map generation |
CN102567731B (zh) * | 2011-12-06 | 2014-06-04 | 北京航空航天大学 | 一种感兴趣区域提取方法 |
CN102521832B (zh) * | 2011-12-07 | 2014-05-28 | 中国科学院深圳先进技术研究院 | 图像分析方法和*** |
US9042648B2 (en) | 2012-02-23 | 2015-05-26 | Microsoft Technology Licensing, Llc | Salient object segmentation |
US9019310B2 (en) * | 2012-03-02 | 2015-04-28 | Adobe Systems Incorporated | Methods and apparatus for applying complex continuous gradients to images |
US9619708B2 (en) * | 2012-04-30 | 2017-04-11 | Niko Corporation | Method of detecting a main subject in an image |
US9202258B2 (en) | 2012-06-20 | 2015-12-01 | Disney Enterprises, Inc. | Video retargeting using content-dependent scaling vectors |
US9025880B2 (en) | 2012-08-29 | 2015-05-05 | Disney Enterprises, Inc. | Visual saliency estimation for images and video |
CN103218832B (zh) * | 2012-10-15 | 2016-01-13 | 上海大学 | 基于图像中全局颜色对比度和空域分布的视觉显著性算法 |
US20140254922A1 (en) | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Salient Object Detection in Images via Saliency |
JP6155785B2 (ja) * | 2013-04-15 | 2017-07-05 | オムロン株式会社 | 画像処理装置、画像処理装置の制御方法、画像処理プログラムおよびその記録媒体 |
CN104834933B (zh) * | 2014-02-10 | 2019-02-12 | 华为技术有限公司 | 一种图像显著性区域的检测方法和装置 |
CN105095835A (zh) * | 2014-05-12 | 2015-11-25 | 比亚迪股份有限公司 | 行人检测方法及*** |
CN103955718A (zh) | 2014-05-15 | 2014-07-30 | 厦门美图之家科技有限公司 | 一种图像主体对象的识别方法 |
US11017311B2 (en) * | 2014-06-30 | 2021-05-25 | Hewlett Packard Enterprise Development Lp | Dataset augmentation based on occlusion and inpainting |
CN104899869B (zh) * | 2015-05-14 | 2017-09-01 | 浙江大学 | 基于rgb‑d相机和姿态传感器的平面和障碍检测方法 |
US9569696B1 (en) * | 2015-08-12 | 2017-02-14 | Yahoo! Inc. | Media content analysis system and method |
-
2016
- 2016-01-15 US US14/997,051 patent/US10489691B2/en active Active
- 2016-12-29 RU RU2016152172A patent/RU2016152172A/ru not_active Application Discontinuation
-
2017
- 2017-01-06 DE DE102017100198.0A patent/DE102017100198A1/de active Pending
- 2017-01-11 GB GB1700498.7A patent/GB2548456A/en not_active Withdrawn
- 2017-01-13 CN CN201710025230.7A patent/CN106980813B/zh active Active
- 2017-01-16 MX MX2017000692A patent/MX2017000692A/es unknown
-
2019
- 2019-10-18 US US16/657,327 patent/US11087186B2/en active Active
-
2021
- 2021-07-09 US US17/371,866 patent/US11847917B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496023A (zh) * | 2011-11-23 | 2012-06-13 | 中南大学 | 像素层面的感兴趣区域提取方法 |
CN103886279A (zh) * | 2012-12-21 | 2014-06-25 | 本田技研工业株式会社 | 使用合成训练数据的实时骑车人检测 |
Also Published As
Publication number | Publication date |
---|---|
CN106980813A (zh) | 2017-07-25 |
US11087186B2 (en) | 2021-08-10 |
US11847917B2 (en) | 2023-12-19 |
GB201700498D0 (en) | 2017-02-22 |
US20170206440A1 (en) | 2017-07-20 |
DE102017100198A1 (de) | 2017-07-20 |
MX2017000692A (es) | 2017-10-23 |
RU2016152172A (ru) | 2018-07-02 |
US10489691B2 (en) | 2019-11-26 |
US20210334610A1 (en) | 2021-10-28 |
US20200050905A1 (en) | 2020-02-13 |
GB2548456A (en) | 2017-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847917B2 (en) | Fixation generation for machine learning | |
US11967109B2 (en) | Vehicle localization using cameras | |
US10055652B2 (en) | Pedestrian detection and motion prediction with rear-facing camera | |
US11694430B2 (en) | Brake light detection | |
US11488392B2 (en) | Vehicle system and method for detecting objects and object distance | |
US10336326B2 (en) | Lane detection systems and methods | |
CN107031656B (zh) | 用于车轮止动器检测的虚拟传感器数据生成 | |
CN107914708B (zh) | 后方障碍物检测和距离估算 | |
Abdi et al. | In-vehicle augmented reality traffic information system: a new type of communication between driver and vehicle | |
US20170206426A1 (en) | Pedestrian Detection With Saliency Maps | |
CN107845290B (zh) | 交叉路口警报方法、处理***、交叉路口警报***及车辆 | |
Padmaja et al. | A novel design of autonomous cars using IoT and visual features | |
US20210004016A1 (en) | U-turn control system for autonomous vehicle and method therefor | |
Yusuf et al. | GPU Implementation for Automatic Lane Tracking in Self-Driving Cars | |
Alam et al. | Deep Learning envisioned accident detection system | |
Moonjarin et al. | Automated overtaking assistance system: a real-time approach using deep learning techniques | |
GB2624653A (en) | A system and method for object detection from a curved mirror | |
Aron et al. | CURRENT APPROACHES IN TRAFFIC LANE DETECTION: A MINIREVIEW. | |
Kadav | Advancing Winter Weather ADAS: Tire Track Identification and Road Snow Coverage Estimation Using Deep Learning and Sensor Integration | |
Gore et al. | VEHICLE NAVIGATION USING ADVANCED OPEN SOURCE COMPUTER VISION. | |
CN115683135A (zh) | 用于确定可行驶空间的***和方法 | |
CN117681766A (zh) | 车辆碰撞预警方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |