CN103703472A - 视频中对象的语意解析 - Google Patents
视频中对象的语意解析 Download PDFInfo
- Publication number
- CN103703472A CN103703472A CN201180036737.3A CN201180036737A CN103703472A CN 103703472 A CN103703472 A CN 103703472A CN 201180036737 A CN201180036737 A CN 201180036737A CN 103703472 A CN103703472 A CN 103703472A
- Authority
- CN
- China
- Prior art keywords
- version
- mark
- region
- image
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000012423 maintenance Methods 0.000 claims description 2
- 230000004304 visual acuity Effects 0.000 claims 16
- 238000004458 analytical method Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 description 25
- 238000001514 detection method Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 19
- 238000005457 optimization Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 239000011521 glass Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000005055 memory storage Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 201000004384 Alopecia Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000003676 hair loss Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008821 health effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/426—Graphical representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种以计算机视觉检测人体的语意属性的改良方法。在以计算机视觉检测人体的语意属性时,本发明维护语意属性的列表,这些语意属性中的每一者对应于人体部位。计算机模块接着分析数字视频的帧的区域段,以通过找到每一区域段的最可能属性来检测每一语意属性。应用阈值以选择该帧的候选区域段以供进一步分析。该帧的这些候选区域段接着通过应用人体的身体结构原理及通过分析图像的分辨率愈来愈高的版本来经历几何及分辨率内容脉络分析,以验证部位及属性的存在及准确性。基于通过评估外观特征、几何特征及在该图像的较高分辨率版本可用时的分辨率内容脉络特征而针对该图像的较高分辨率版本所计算的加权平均分,计算机模块计算该图像的较低分辨率版本的分辨率内容脉络分数。最后,经由动态程序设计来执行最佳结构步骤以选择该帧上的具有人体部位的语意属性及空间位置两者的最佳输出。
Description
技术领域
本发明涉及视频处理及对象识别,且更具体的,涉及分析对象的图像以识别属性。
背景技术
自动地识别视频中的对象及其各部分的位置对于许多任务而言是重要的。举例而言,在人体部位的情况下,自动地识别人体各部位的位置对诸如自动动作辨识、人类姿势估计等的任务而言是重要的。身体解析是用以描述视频中的各个身体部位的计算机化定位的术语。用于视频中的身体解析的现有方法仅估计诸如头、腿、手臂等部位的位置。参见(例如)Ramanan等人“Strike a Pose:Tracking People byFinding Stylized Poses”,2005年6月美国加州圣地亚哥(San Diego,CA)Computer Vision and Pattern Recognition(CVPR)及Felzenszwalb等人“Pictorial Structures for Object Recognition”,2005年1月International Journal of Computer Vision(IJCV)。
大多数先前方法实际上仅执行语法对象解析,也即,这些方法仅估计对象部位(例如,手臂、腿、脸部等)的定位,而没有有效地估计与这些对象部位相关联的语意属性。
鉴于上述内容,需要一种用于自图像有效地识别对象的语意属性的方法及***。
发明内容
本发明在于用于估计视频中的对象的部位及属性的一种方法、一种计算机程序产品、一种计算机***及一种处理。该方法、该计算机程序产品、该计算机***及该处理包含:接收视频输入;从所述视频输入检测对象且从所述视频输入裁切所述对象的图像;接收具有所述对象的相关联部位的多个语意属性;产生并储存所述图像的多个版本,每一版本具有所述对象的所述图像的不同分辨率;针对所述多个语意属性,计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数,针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率;针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本,以计算分辨率内容脉络分数,所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度,所述程度是针对每一区域,相比于最低分辨率版本,在所述分辨率递增的版本中存在更精细的空间结构的程度;确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构,所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数;以及显示和/或储存身体部位及相关联语意属性的所述优化结构。
附图说明
参考以下附图通过仅为举例的方式说明本发明的优选实施例,其中:
图1示出了根据本发明实施例的用于检测人体的语意属性的***的说明性环境。
图2示出了根据本发明实施例的用于检测视频中的人体的语意属性的说明性环境的近视图。
图3示出了根据本发明实施例的输入及输出的实例。
图4示出了根据本发明实施例的用于检测图像上的语意属性的说明性数据流。
图5示出了根据本发明实施例的与身体部位相关联的语意属性的实例。
图5A及图5B示出了根据本发明实施例的将语意属性应用于人体图像的实例。
图5C示出了根据本发明实施例的评估外观分数的实例。
图5D示出了根据本发明实施例的用于计算外观分数的步骤的输入及输出。
图6及图6A示出了根据本发明实施例的计算分辨率内容脉络分数的实例。
图6B示出了根据本发明实施例的用于计算分辨率内容脉络分数的步骤的输入及输出。
图7A及图7B示出了根据本发明实施例的用于计算最佳配置的几何分数的实例。
图7C示出了根据本发明实施例的用于计算几何分数的步骤的输入及输出。
图8示出了根据本发明实施例的用于计算总分的步骤的输入及输出。
请注意,这些附图并不按比例绘制。这些附图意欲仅描绘本发明的典型方面,且因此不应被认为限制本发明的范畴。虽然这些附图说明了对视频中的人体的处理,但本发明扩展至对视频中的其他对象的处理。在附图中,类似编号表示附图之间的类似组件。
具体实施方式
本发明涉及视频处理及对象识别,且更具体的,涉及分析对象的图像以识别属性
本发明的各方面提供了一种用于检测视频中的对象的语意属性的改良解决方案。举例而言,本发明的各方面提供从身体部位提取属性,以使得能够基于个人描述来在视频中自动搜寻人物。在另一实例中,本发明提供从汽车提取属性,以使得能够基于汽车的描述来在视频中自动搜寻汽车。可能的查询可为:“显示上个月进入IBM的有胡须、戴太阳眼镜、穿红色夹克及蓝色裤子的所有人物”或“显示上周进入IBM停车场的具有菱形轮毂盖的所有蓝色双门Toyota”。
本发明处理语意对象解析的问题,其中目标为在同一处理中有效地估计部位位置及语意属性两者。使用人体解析作为实例,本发明的实施例提供在同一处理中估计人体部位的语意属性连同身体部位的定位。克服先前方法的低效率及不准确,本发明充分利用全局优化方案来同时估计部位及其对应属性两者。
不同于先前方法,本发明的实施例使用诸如“胡须”、“小胡子”及“无脸部毛发”的语意属性来不仅定位人体部位而且识别该身体部位的属性。举例而言,代替仅识别诸如“腿”的身体部位,本发明使用诸如“黑色长裤”、“长裙”及“短裤”的语意属性来定位该身体部位且识别其属性两者。本发明维护使每一语意属性与对应身体部位相关的数据表。举例而言,语意属性“胡须”对应于身体部位“下部脸部区域”。
本发明的实施例系基于三种特征:外观特征、分辨率内容脉络特征,及几何特征。外观特征指代通过将来自图像库的语意属性与出现在该图像上的事物进行比较以评估匹配概率所获得的分数。分辨率内容脉络特征指代在不同图像分辨率下的对象一致性。特定区域的分辨率内容脉络分数为来自该特定区域的较高分辨率图像的加权平均分。通过合计外观分数、几何分数及(若较高分辨率图像可用时的)分辨率内容脉络分数来计算该较高分辨率图像的总分。自较高分辨率图像将分辨率内容脉络分数计算为给定区域处的总分除以组成被分析的较高分辨率图像上的该区域的子区域的数目。几何特征指代基于可能结构中的基础部位间的空间关系来计算的分数。举例而言,潜在属性“胡须”对应于“脸部”,且“黑衬衫”对应于“躯体”。几何特征通过应用一般人体结构原理来测试候选语意属性的准确性,该一般人体结构原理为“脸部”在“躯体”上方且距“躯体”特定距离。
在人体解析的实例中,本发明的各方面不仅估计人体部位位置,而且估计其语意属性,诸如颜色、脸部毛发类型、眼镜的存在等。换言之,本发明的各方面利用统一学习方案来执行语法解析(也即,位置估计)及语意解析(也即,提取描述每一身体部位的语意属性)两者。本发明优于先前技术而在同一处理中检测身体部位及属性两者以更准确地识别人体的属性。
转向附图,图1示出了根据本发明的实施例的用于检测人体的语意属性的说明性环境。就此而言,至少一个相机42捕捉场景或背景90。通常,该背景或场景90可包括至少一个对象(诸如,人员92)。如本文中所论述,获得数字视频输入40且将其发送至***12,该***12包括例如语意属性检测程序30、数据50、预定或指定语意属性52、输出54和/或其类似物。
图2示出了根据本发明的实施例的用于检测视频40中的人员92(图1)的语意属性的说明性环境10的近视图。就此而言,环境10包括计算机***12,其可执行本文中所描述的处理以便检测视频40中的人员92的语意属性。具体的,计算机***12被示出为包括计算装置14,该计算装置14包含使计算装置14可操作以用于通过执行本文中所描述的处理来检测视频40中的人员92(图1)的语意属性的语意属性检测程序30。
计算装置14被示出为包括:处理器20、存储器22A、输入/输出(I/O)接口24,及总线26。另外,计算装置14被示出为与外部I/O装置/资源28及非暂时性计算机可读存储装置22B(例如,硬盘、软盘、磁带、诸如光盘(CD)或数字视频盘(DVD)的光学储存器)通信。一般而言,处理器20执行诸如语意属性检测程序30的程序代码,该程序代码储存于诸如存储器22A(例如,动态随机存取存储器(DRAM)、只读存储器(ROM)等)和/或存储装置22B的储存***中。在执行程序代码时,处理器20可读取和/或写入数据,诸如,将数据36写入至存储器22A、存储装置22B和/或I/O接口24/自存储器22A、存储装置22B和/或I/O接口24读取数据36。计算机程序产品包含存储装置22B,该存储装置22B上储存有供处理器20随后执行以执行用于估计视频中的对象的部位及属性的方法的程序代码。总线26提供计算装置14中的组件中的每一个之间的通信链路。I/O装置28可包含在用户16与计算装置14之间和/或在数字视频输入40与计算装置14之间传送信息的任何装置。就此而言,I/O装置28可包含:用户I/O装置,其用以使得各个用户16能够与计算装置14互动;和/或通信装置,其使用任何类型的通信链路以使得组件(诸如,数字视频输入40)能够与计算装置14通信。I/O装置28表示至少一个输入设备(例如,键盘、鼠标等)及至少一个输出设备(例如,打印机、绘图机、计算机屏幕、磁带、可拆卸硬盘、软盘)。
在任何情况下,计算装置14可包含任何通用计算制造对象,其能够执行安装于其上的程序代码。然而,应理解,计算装置14及语意属性检测程序30仅代表可执行本文中所描述的处理的各种可能的等效计算装置。就此而言,在其他实施例中,通过计算装置14及语意属性检测程序30提供的功能性可通过计算制造对象来实施,该计算制造对象包括通用和/或专用硬件和/或程序代码的任何组合。在每个实施例中,可分别使用标准程序设计及工程技术来建立程序代码及硬件。这些标准程序设计及工程技术可包括开放架构以允许整合来自不同位置的处理。上述开放架构可包括云计算。因此,本发明公开了一种用于支持计算机基础结构、整合、代管、维护及部署计算机可读代码至计算机***12中的处理,其中与该计算机***12结合的代码能够执行一种用于估计视频中的对象的部位及属性的方法。
类似地,计算机***12仅说明用于实施本发明的各方面的各种类型的计算机***。举例而言,在一个实施例中,计算机***12包含两个或两个以上计算装置,该两个或两个以上计算装置经由任何类型的通信链路(诸如,网络、共享存储器或其类似者)进行通信以执行本文中所描述的处理。另外,在执行本文中所描述的处理时,计算机***12中的一个或多个计算装置可使用任何类型的通信链路与计算机***12外部的一个或多个其他计算装置通信。在任一情况下,通信链路可包含各种类型的有线和/或无线链路的任何组合;包含一种或多种类型的网络的任何组合;和/或利用各种类型的传输技术及协议的任何组合。
如本文中所论述,语意属性检测程序30使得计算机***12能够检测对象(诸如,视频40中的人员92(图1))的语意属性。就此而言,语意属性检测程序30被示出为包括对象检测模块32、外观分数模块34、几何分数模块36、分辨率内容脉络模块37、结构优化模块38、计算总分模块39,及结构化学习模块35。本文中进一步论述这些模块中的每一个的操作。然而,应理解,图2中所示出的各种模块中的一些模块可独立地实施、组合和/或储存于包括于计算机***12中的一个或多个单独计算装置的存储器中。另外,应理解,可以不实施一些模块和/或功能性,或可包括额外模块和/或功能性作为计算机***12的一部分。
本发明的各方面提供一种用于检测对象(诸如,视频40中的人员92(图1))的语意属性的改良解决方案。就此而言,图3示出了根据本发明的实施例的输入90(图1)及输出54(图1)的实例。如上文(图1)所描述,输入90为具有至少一个对象(在此实例中为人)的场景。输出54包括身体部位的空间位置及图像上的属性。举例而言,本发明将区域402识别为上部脸部区域,且自同一区域识别该人员的属性“秃发”。区域404为中间脸部区域且识别属性“太阳眼镜”。区域406为下部脸部区域且识别属性“胡须”。区域408被识别为手臂且识别属性“纹身”。区域410被识别为腿且识别属性“黑色长裤”。此外,如本文中所描述,输出54包括图像的外观分数、几何分数及(若可用)分辨率内容脉络分数的总分和/或加权平均分。
本发明的各方面提供一种用于检测对象(诸如,视频40中的人员92(图1))的语意属性的改良解决方案。就此而言,图4示出了根据本发明的实施例的用于通过使用语意属性检测程序30(图2)的模块而检测图像上的人员92(图1)的语意属性的说明性数据流。举例而言,在D1处,***12接收数字彩***输入40。数字彩***输入40通常呈红色-绿色-蓝色(RGB)格式,且在每一时间瞬时处,具有人员92(图1)的视频输入的帧到达对象检测模块32(图2)。
在S1处,对象检测模块32(图2)在视频输入的帧中检测对象且识别其对象类型。可通过使用对象分类器来将对象的图像与先前储存且储存于对象库中的持续自学对象进行比较而测试该检测(参见论文:2005年6月美国加州圣地亚哥(San Diego,USA)Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,N.Dalal及B.Triggs的“Histograms of Oriented Gradients for Human Detection”第II卷第886至893页))。一旦自图像识别出对象,便裁切覆盖该对象的图像区域。现有技术支持产生图像的较低分辨率版本。自裁切区域,产生原始裁切区域的至少一个较低分辨率图像且将其与原始裁切图像一起保存以供进一步分析。在随后步骤中,首先处理裁切区域的最低分辨率图像,且以较低分辨率至较高分辨率的次序处理图像。出于获得分辨率内容脉络分数的目的,处理较高分辨率图像。具体的,分辨率内容脉络分数模块37(图2)分析与对象的各种部位及子部位相对应的图像的各种区域及子区域的分辨率愈来愈高的图像。较高分辨率图像的分析依次包括计算语意属性的外观分数、针对子区域计算几何分数及计算分辨率内容脉络分数,所述子区域具有比最低分辨率图像中的区域高的精细度。最低分辨率图像的分辨率可为预定的,诸如,作为常数储存于语意属性检测程序30中或作为输入经由I/O装置28(图2)来提供。
D2维护语意属性及相关联图像的列表。除了描述语意属性之外,每个语意属性还对应于身体部位。举例而言,语意属性“太阳眼镜”、“眼镜”及“无眼镜”全部对应于身体部位“中间脸部区域”;语意属性“胡须”、“小胡子”及“无脸部毛发”全部对应于身体部位“下部脸部区域”。图5示出了根据本发明的实施例的与身体部位相关联的语意属性的实例。语意属性52(图1)的列表含有这些语意属性及其对应身体部位两者。
在S2处,外观分数模块34(图2)通过评估语意属性52(D2)存在于图像的各区域处的概率而实时或以延迟模式来分析自S1保存的图像。如上文所陈述,首先分析最低分辨率图像。可在此阶段评估可能在最低分辨率图像上可见的语意属性,而可在随后步骤处评估可能在较高分辨率图像上可见的其他语意属性。语意属性的图像储存于持续自学的语意属性库中。
在S2处,在评估语意属性存在于影像的各区域处的概率时,本发明的各方面使用了描述于2001年2月“Cambridge ResearchLaboratory Technical Report”Viola等人的作品“Robust Real-timeObject Detection”中的方法。在2004年IEEE International Conferenceon Automatic Face and Gesture Recognition Bo Wu等人的作品“FastRotation Invariant Multi-View Face Detection Based on RealAdaboost”中用实值信赖分数进一步描述了该方法。该方法提供计算外观分数用以表示属性存在于某一区域处的概率的步骤。经由语意属性检测器的应用来评估语意属性的存在。用于语意属性的检测器是将图像的某一区域映射成在区域间[0,1]中的实数的函数,其中输出指示语意属性在给定作为输入的图像区域中存在的概率。依据本发明,外观分数的所得值的范围可为0至1。在图像的每一区域处,可存在对应于存在于同一区域处的多个语意属性的概率的多个外观分数。
图5A及图5B示出了根据本发明的实施例的将语意属性应用于人体图像的实例。在图5A中,不同于将仅把图像区域60、62及64分别识别为头、躯体及腿的先前技术,本发明的实施例另外自区域60提取皮肤颜色、自区域62提取衬衫颜色且自区域64提取裤子颜色等。类似地,在图5B中,区域66不仅被识别为上部脸部区域,而且其提供描述头发、秃发或帽子的存在的属性。区域68不仅被识别为中间脸部区域,而且其还提供描述眼睛、视力眼镜或太阳眼镜的属性。区域70不仅被识别为下部脸部区域,而且其还可提供嘴、小胡子或胡须的属性。此外,图5A的图像具有比图5B低的分辨率。将适用于整个身体的属性检测器(诸如,皮肤颜色、衬衫颜色及裤子颜色)应用于图5A中的较低分辨率图像,而将特定于脸部的属性检测器(诸如,发型、眼镜的存在及小胡子)应用于图5B。
随后在S2(图4)中,外观分数模块34(图2)将阈值应用于由在图像上应用语意属性检测器所产生的所有外观分数。将舍弃小于阈值的外观分数,而将保留剩余的外观分数。阈值可为预定的,诸如作为常数储存于语意属性检测程序30中或作为输入经由I/O装置28(图2)来提供。在应用阈值之后,在图像的区域处仍可存在剩余的一个以上外的观分数。在图像的每一区域处的每一外观分数对应于语意属性。如上文所描述,每一语意属性对应于身体部位。因此,在图像区域处的每一外观分数也对应于身体部位。接着,具有超过阈值的外观分数的每一区域将用对应的身体部位来加标签。结果,外观分数模块34的输出包括用外观分数作标记且用语意属性及身体部位名称加标签的区域的位置,例如,对于区域x,外观分数为0.6且标签为“胡须/下部脸部区域”,其中“胡须”为语意属性且“下部脸部区域”为身体部位。
图5C示出了根据本发明的实施例的评估外观分数的实例。区域602获得三个外观分数:胡须(0.1)、小胡子(0.1)及“无毛发”(0.95)。举例而言,阈值为0.5。结果,如上文所描述,将“无毛发”选择为区域602的属性,这是因为“无毛发”包括了超过阈值0.5的分数。类似地,区域604获得三个外观分数:胡须(0.9)、小胡子(0.2)及“无毛发”(0.1)。结果,将胡须选择为区域604的属性,这是因为胡须包括了超过阈值0.5的分数。如上文所描述,区域604及区域602两者将用身体部位“下部脸部区域”加标签。根据通过S5(图4)中的结构优化模块的评估,区域604可由于具有低几何分数以及低分辨率内容脉络分数而在随后被拒绝。
S2(图4)的输出包括用属性及外观分数作标记且用身体部位名称加标签的各区域的各个位置。图5D示出了根据本发明的实施例的用于计算外观分数的步骤的输入及输出。在计算外观分数时,外观分数模块34(图2)获取输入610,该输入610包括对象的裁切图像612、具有对应部位的语意属性的列表52、作为参考的语意属性的图像库620,及外观分数阈值630。输出690包括图像上的具有语意属性、部位名称及外观分数650的区域。输出外观分数全部超过外观分数阈值630。
在S3(图4)处,为了计算在S2中处理的图像(例如,图像x)的分辨率内容脉络分数,分辨率内容脉络分数模块37(图2)需要分析图像x的较高分辨率图像。如上文所描述,自S1产生且储存较高分辨率图像。主要想法在于,若身体部位在给定分辨率下在图像中可见,则其在较高分辨率下在同一图像中也应可见。举例而言,在特定区域(区域y)处,向语意属性“胡须”给定分数0.9且因此将区域y加标签为“胡须/下部脸部区域”。在较高分辨率图像中,区域y预期显示出下部脸部区域的子部位(例如,嘴,下巴等)。若该情况没有发生,则有可能身体部位“下部脸部区域”实际上不存在于区域y中,且将较低分辨率内容脉络分数指派给区域y。
图6示出了根据本发明的实施例的评估分辨率内容脉络分数的实例。在较低分辨率图像下,在图像700上,外观分数模块34(图2)通过应用语意属性检测器(诸如,胡须或眼镜或脸部皮肤颜色)在区域702处检测脸部身体部位。图像750为区域702的较高分辨率图像。由于区域的分辨率内容脉络分数的可用性取决于该区域的较高分辨率图像的可用性,因此在图像750可用的情况下,可获得图像700上的区域702的分辨率内容脉络分数。在图像750下,评估区域702以检测如在图像700上所检测到的脸部是否含有预期子部位(诸如,眼睛、鼻子及嘴)。相关语意属性检测器(诸如,胡须或眼镜或甚至眼睛颜色)可应用于图像750。因此,针对在诸如区域704的区域处应用的语意属性而在图像750上计算外观分数。此外,针对经识别具有超过预定阈值的语意属性的区域来计算几何分数。简言之,图4中的步骤S2到步骤S7将应用于图像750以产生总分和/或加权平均分,该总分和/或加权平均分用于图像750的输出54的一部分。在分析时,每一图像都产生输出54。来自图像750的加权平均分成为图像700上的区域702的分辨率内容脉络分数。
图6A进一步说明分辨率内容脉络分数模块37如何获得分辨率分数。在自较低分辨率图像至较高分辨率图像的处理中,在分辨率N下的图像670的分辨率低于图像690的分辨率N+1。在图像670上的区域675处,属性“欧洲脸”具有外观分数0.9。图像690在较高分辨率下检查区域675。应用于图像690的分析处理包括通过应用语意属性来计算外观分数、计算分辨率内容脉络分数、计算几何分数(在随后步骤描述)、执行结构优化(在随后步骤描述)及计算总分(在随后步骤描述)。如上文所描述,输出54包括图像的外观分数、分辨率内容脉络分数及几何分数的加权平均(如本文中所描述)。因此,在此情况下,来自用于图像690的输出54的加权平均分0.7为图像670上的区域675的分辨率内容脉络分数。
为了进一步说明图6A上的图像670上的区域675如何具有分辨率内容脉络分数0.7,假定基于应用于图像690上的语意属性,存在在图像690上检测出的三个区域。假定该三个区域为区域x、区域y及区域z。假定图像690上的区域x、区域y及区域z的外观分数分别为0.9、0.8及0.9。假定图像690上的区域x、区域y及区域z的几何分数分别为0.5、0.6及0.35。假定存在区域x、区域y及区域z的较高分辨率图像。假定区域x的较高分辨率图像具有两个子区域:区域xx及区域xy。假定区域xx及区域xy不具有对应的较高分辨率图像。假定区域xx具有外观分数0.95且区域xy具有外观分数0.9。假定区域xx及区域xy的几何分数分别为0.9及0.8。由于不存在区域xx及区域xy的对应的较高分辨率图像,因此区域xx及区域xy的分辨率内容脉络分数为0。假定在该实例中的所有分析中,外观分数的加权因子为0.5,几何分数的加权因子为0.3且分辨率内容脉络分数的加权因子为0.2。因此,可在表1中表示对应于图像690上的区域x的最高分辨率图像的数字。
表1
区域xx | 区域xy | 权重 | |
外观分数 | 0.95 | 0.9 | 0.5 |
几何分数 | 0.9 | 0.8 | 0.3 |
分辨率内容脉络分数 | 0 | 0 | 0.2 |
对应于图像690上的区域x的最高分辨率图像的加权平均分为:
(0.95*0.5+0.9*0.3+0*0.2+0.9*0.5+0.8*0.3+0*0.2)/2=0.7275
因为在计算中存在两个区域(区域xx及区域xy),所以将总和除以2。输出0.7275成为图像690上的区域x的分辨率内容脉络分数。类似地,假定依据对区域y及区域z的较高分辨率图像的分析,区域y及区域z的分辨率内容脉络分数分别为0.6及0.5。表2描绘了图像690上的区域x、区域y及区域z的分数,其在下文示出了。
表2
区域x | 区域y | 区域z | 权重 | |
外观分数 | 0.9 | 0.8 | 0.9 | 0.5 |
几何分数 | 0.5 | 0.6 | 0.35 | 0.3 |
分辨率内容脉络分数 | 0.7275 | 0.6 | 0.5 | 0.2 |
因此,图像690的加权平均分为:
(0.9*0.5+0.5*0.3+0.7275*0.2+0.8*0.5+0.6*0.3+0.6*0.2+0.9*0.5+0.35*0.3+0.5*0.2)/3≈0.7
因为图像690为图像670上的区域675的对应较高分辨率图像,所以图像670上的区域675具有分辨率内容脉络分数0.7。
如在图6A中进一步表明,区域的分辨率内容脉络分数的存在取决于该区域的较高分辨率图像是否可用于分析。因此,最高分辨率图像不具有分辨率内容脉络分数。结果,最高分辨率图像的输出54的加权平均分将仅包括外观分数及几何分数的加权平均值。此外,如由图6A所表明,图像690提供图像670上的区域675的分辨率内容脉络分数。图像670上的其他区域将必须经历如上文所描述的类似分析,以获得其对应分辨率内容脉络分数。
S3(图4)的输出包括最低分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域。图6B示出了根据本发明的实施例的评估分辨率内容脉络分数的步骤的输入及输出。在计算分辨率分数时,分辨率分数模块37(图2)获取输入830,输入830包括具有不同分辨率的图像860及最低分辨率图像上的具有语意属性、部位名称及外观分数的区域650。输出880包括最低分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域885。在获得最终输出时,分辨率分数模块37可产生中间输出,这些中间输出包括不同分辨率图像上的具有语意属性、部位名称及分辨率内容脉络分数的区域。
在S4(图4)处,几何分数模块36(图2)通过测量分析的候选区域的特定结构间的距离及角度来计算几何分数,且试图将候选区域间的距离及角度与人体的几何结构匹配。举例而言,候选区域的结构越有可能匹配人体的自然位移,则对于该结构中的每一部位给定的几何分数越高。在一个实施例中,计算几何分数的算法如下:在步骤S2(图4)处所识别的语意属性当中,从这些属性提取部位名称;对于每一部位,当将动态编程用于优化时,几何分数模块36计算与所有其他部位或仅父部位的距离及角度,且使用标准分类方法(例如,在http://en.wikipedia.org/wiki/Naive_Bayes_classifier处可得的NaiveBayes Classifier)来关于距离及角度特征向量如何对应于人体的合理结构而给定范围在0至1的分数。在各实施例中,计算几何分数的实例提供如下。
几何分数(Gi)实例
身体部位i(或区域i)的几何分数(Gi)可依据基于角度的几何分数(GAi)和/或基于距离的几何分数(GDi)来表达。
在一个实施例中,Gi=(GAi+GDi)/2,其为直接的算术平均值。
在一个实施例中,Gi=WAGAi+WDGDi,其为加权的算术平均值,其中权重(WA、WD)为满足WA+WD=1的非负实数,且其中权重(WA、WD)为输入,在一个实例中,这些输入可基于诸如用以计算几何分数GAi及GDi的角度及距离(见下文)的参考值的相对准确性和/或重要性的因子来选择或判定。
在一个实施例中,Gi=(GAi*GDi)1/2,其为几何平均值。
在一个实施例中,Gi=GAi,其中仅使用角度而不使用距离。
在一个实施例中,Gi=GDi,其中仅使用距离而不使用角度。
基于角度的几何分数(GAi)
使Ai={Ai1,Ai2,...,AiN}指示如上文所描述在部位i(或区域i)与每一对其他身体部位(或区域)之间所确定的N个角度的数组。
使ai={ai1,ai2,...,aiN}指示储存于库或文件中的N个对应参考角度的数组,其中N≥2。
使δAi指示Ai与ai之间的差异的测量结果。
在一个实施例中,δAi=[{(Ai1-ai1)2+(Ai2-ai2)2+...+(AiN-aiN)2}/N]1/2。
在一个实施例中,δAi=(|Ai1-ai1|+|Ai2-ai2|+...+|AiN-aiN|)/N。
使tA指示指定或输入的角度阈值,使得:
若δAi≥tA,则GAi=0;且
若δAi<tA,则GAi=1-δAi/tA。
因此,GAi满足0≤GAi ≤1。具体的,若δAi=0(也即,若所有确定的角度等于所有对应的参考角度),则GAi=1。此外,若δAi≥tA(也即,若Ai与ai之间的差异的测量结果不能容忍得大),则GAi =0。
基于距离的几何分数(GDi)
使Di={Di1,Di2,...,DiM}指示如上文所描述的在身体部位i(或区域i)与每一其他身体部位(或区域)之间所确定的M个距离的数组。
使di={di1,di2,...,diM}指示储存于库或文件中的M个对应参考距离的数组,其中M≥2。
使δDi指示Di与di之间的差异的测量结果。
在一个实施例中,δDi=[{(Di1-di1)2+(Di2-di2)2+...+(DiN-diM)2}/M]1/2。
在一个实施例中,δDi=(|Di1-di1|+|Di2-di2|+...+|DiN-diM|)/M。
让tD指示特定或输入的距离阈值,使得:
若δDi≥tD,则GDi=0;且
若δDi<tD,则GDi=1-δDi/tD。
因此,GDi满足0≤GDi≤1。具体的,若δDi=0(也即,若所有确定的距离等于所有对应的参考距离),则GDi=1。此外,若δDi≥tA(也即,若Di与di之间的差异的测量结果不能容忍得大),则GDi=0。
图7A及图7B示出了根据本发明的实施例的用于评估最佳结构的几何分数的实例。在图7A中,存在在图例800上所识别的许多部位,其中每一正方形表示图像上的识别出具有部位名称的语意属性的区域。在识别出许多独立部位的情况下,存在可能形成人体的许多可能结构。图像中的实际人体在图7A中迭置。举例而言,可能在区域801处检测到头。在区域803及805处检测到两个手臂,且在区域807及809处检测到两条腿。图7B说明了图例802上的通过结构优化模块38选择为最佳结构的部位的区域的集合。在后续步骤中描述了结构优化模块38的功能性。如在图7B中所示的,将区域801、803、805、807及809选择为优化结构的部位。通过测量与其他区域的角度及距离来计算给定结构中的每一区域的几何分数。举例而言,可从测量区域801与属于特定结构候选者的所有其他区域的角度及距离来计算区域801的几何分数。
S4(图4)的输出包括候选部位的结构,其中每一部位(i)与语意属性、外观分数Ai、分辨率内容脉络分数Ri及几何分数Gi相关联。图7C示出了根据本发明的实施例的用于评估几何分数的步骤的输入及输出。在计算几何分数时,几何分数模块36(图2)获取输入810,这些输入810可包括由优化模块分析的部位的候选结构(具有外观分数及分辨率分数的部位的集合)815,及部位间的角度及距离的参考库820。输出890包括部位候选者结构850,其中每一部位(i)与语意属性、外观分数Ai、分辨率内容脉络分数Ri及几何分数Gi相关联。
在S5(图4)处,结构优化模块38(图2)使用动态编程来基于外观分数、几何分数及分辨率内容脉络分数选择最佳结构。给定候选者的集合,可存在可从图像选择为最终身体部位区域加上属性估计的若干可能结构。使用在2005年1月“International Journal of Computer Vision(IJCV)”Felzenszwalb等人的“Pictorial Structures for ObjectRecognition”中提出的算法,经由动态编程来选择最佳结构,该最佳结构是具有最大外观分数、几何分数及分辨率分数的结构。当选定最佳结构时,该最佳结构的选定区域已与语意属性相关联且在该区域处具有身体部位标签,如上文所描述。
因此,在S5(图4)处,可自可用区域及其相关联身体部位标签和属性导出许多可能的候选身体结构。S5的目标为从该多个可能的身体结构中选择出最佳结构。优化模块搜寻此结构空间,其旨在依据外观分数、分辨率内容脉络分数及几何分数确定具有最高加权平均分的结构。作为实例,结构优化模块38可使用如上文所描述的公式结合表1及表2使用,来计算每一可能结构的加权平均分,并选择具有最高加权平均分的结构作为输出。
作为对在计算加权平均分时使预定权重用于三种类型的分数的替代,可动态地确定这些权重。为了自所有三种类型的分数计算优化加权平均分,S6(图4)可确定这些分数的最佳权重。在确定这些最佳权重时,在S6(图4)处,结构化学习模块35(图2)使用称作“结构化学习”的机器学习过程,该机器学习过程描述于2005年9月“Journal ofMachine Learning Research(JMLR)”Tsochantaridis等人“LargeMargin Methods for Structured and Interdependent OutputVariables”中。基本想法包括向***呈现身体部位结构(包括其属)的许多实例。该结构化学习模块接着将使这些权重优化,使得所呈现的实例集合中的任何结构均具有比不对应于有效人体配置的无效结构高的整体分数。结构化学习也于2007年“National Information ProcessingSystems Foundation”由Tran等人描述于“Configuration EstimatesImprove Pedestrian Finding”中。结构化学习是使用一系列正确实例来相对于彼此估计特征的适当权重,以产生在估计结构时有效的分数的方法。
在S7(图4)处,计算总分模块39(图2)基于优化结构中的各区域的外观分数、几何分数及分辨率内容脉络分数而计算优化总分。通过来自结构化学***均分。
因此,分析的每一结构是由各部位的集合组成的,其中每一部位(i)与属性及对应外观分数Ai、分辨率内容脉络分数Ri及几何分数Gi相关联。在S7(图4)处,计算总分模块39(图2)使用以下公式来计算优化总分:
其中对于结构的每一部位i,Ai表示外观分数,Gi表示几何分数,Ri表示分辨率分数,且W1、W2及W3对应于由结构化学习模块获得的权重。通过S6的结构化学习模块35(图2)经由上文所描述的方法来提供W1、W2及W3。
图8示出了根据本发明的实施例的用于计算总分的步骤的输入及输出。计算总分模块39(图2)的输入840包括:部位候选者结构842,其中每一部位(i)具有外观分数Ai、分辨率分数Ri及几何分数Gi:及由结构化学***均分。输出849包括作为Ai、Ri及Gi的加权平均值的分数847。
如本文中所使用,应理解,“程序代码”意谓语句或指令(以任何语言、程序代码或计数法表示)的任何集合,其使具有信息处理能力的计算装置直接地或在以下各者的任何组合的后执行特定功能:(a)转换至另一语言、程序代码或计数法;(b)以不同材料形式重现;和/或(c)解压缩。就此而言,程序代码可体现为或多种类型的计算机程序的任何组合,诸如,应用程序/软件程序、组件软件/函数库、操作***、用于特定计算的基本I/O***/驱动器、储存器和/或I/O装置,及其类似者。
已出于说明及描述的目的呈现了本发明的各种各方面的上述描述。其不意欲为详尽的或将本发明限于所揭示的精确形式,且明显地,许多修改及变化系可能的。熟习此项技术者可显而易见的这些修改及变化包括于如由所附申请专利范围所界定的本发明的范畴内。
Claims (24)
1.一种用于确定视频中的对象的部位及相关属性的方法,所述方法包含:
接收视频输入;
从所述视频输入检测对象且从所述视频输入裁切所述对象的图像;
接收具有所述对象的相关联部位的多个语意属性;
产生并储存所述图像的多个版本,每一版本具有所述对象的所述图像的不同分辨率;
针对所述多个语意属性,计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数,针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率;
针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本,以计算分辨率内容脉络分数,所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度,所述程度是针对每一区域,相比于最低分辨率版本,在所述分辨率递增的版本中存在更精细的空间结构的程度;
确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构,所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数;以及
显示和/或储存身体部位及相关联语意属性的所述优化结构。
2.如权利要求1的方法,其进一步包含:
针对所述最低分辨率版本的所述多个区域中的每一区域计算几何分数,所述几何分数关于所述多个区域间的角度及距离来计算某一区域与对应于所检测对象的参考对象所储存的参考数据相匹配的概率。
3.如权利要求2的方法,其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分,所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。
4.如权利要求3的方法,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。
5.如权利要求3的方法,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。
6.如权利要求5的方法,其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的:
其中I表示所述图像的所述下一个更高分辨率版本中的区域的数目,i为区域索引,∑i指示从i=1至i=I的求和,Ai表示区域i的外观分数,Gi表示区域i的几何分数,Ri表示区域i的分辨率内容脉络分数,且W1、W2及W3表示分别指派给所述外观分数、所述几何分数及所述分辨率内容脉络分数的权重。
7.如权利要求6的方法,其进一步包含:
储存和/或显示具有关于语意属性及相关联部位的空间信息的所述图像的所述较高层级版本中的至少一个版本中的所述图像的至少一部分的输出。
8.一种计算机程序产品,其包含:
计算机可读储存介质,其具有在所述储存介质实现的计算机可读程序代码,所述计算机可读程序代码含有执行用于估算视频中的对象的部位及属性的方法的指令,所述方法包括:
接收视频输入;
从所述视频输入检测对象且从所述视频输入裁切所述对象的图像;
接收具有所述对象的相关联部位的多个语意属性;
产生并储存所述图像的多个版本,每一版本具有所述对象的所述图像的不同分辨率;
针对所述多个语意属性,计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数,针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率;
针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本,以计算分辨率内容脉络分数,所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度,所述程度是针对每一区域,相比于最低分辨率版本,在所述分辨率递增的版本中存在更精细的空间结构的程度;
确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构,所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数;以及
显示和/或储存身体部位及相关联语意属性的所述优化结构。
9.权利要求8的计算机程序产品,所述方法进一步包含:
针对所述最低分辨率版本的所述多个区域中的每一区域计算几何分数,所述几何分数关于所述多个区域间的角度及距离来计算某一区域与对应于所检测对象的参考对象所储存的参考数据相匹配的概率。
10.权利要求9的计算机程序产品,其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分,所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。
11.如权利要求10的计算机程序产品,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。
12.如权利要求10的计算机程序产品,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。
13.如权利要求12的计算机程序产品,其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的:
其中I表示所述图像的所述下一个更高分辨率版本中的区域的数目,i为区域索引,∑i指示从i=1至i=I的求和,Ai表示区域i的外观分数,Gi表示区域i的几何分数,Ri表示区域i的分辨率内容脉络分数,且W1、W2及W3表示分别指派给所述外观分数、所述几何分数及所述分辨率内容脉络分数的权重。
14.如权利要求13的计算机程序产品,其进一步包含:
储存和/或显示具有关于语意属性及相关联部位的空间信息的所述图像的所述较高层级版本中的至少一个版本中的所述图像的至少一部分的输出。
15.一种计算机***,其包含处理器及耦接至所述处理器的计算机可读存储器单元,所述计算机可读存储器单元含有指令,所述指令在由所述处理器执行时实施用于估算视频中的对象的部位及属性的方法,所述方法包括:
接收视频输入;
从所述视频输入检测对象且从所述视频输入裁切所述对象的图像;
接收具有所述对象的相关联部位的多个语意属性;
产生并储存所述图像的多个版本,每一版本具有所述对象的所述图像的不同分辨率;
针对所述多个语意属性,计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数,针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率;
针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本,以计算分辨率内容脉络分数,所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度,所述程度是针对每一区域,相比于最低分辨率版本,在所述分辨率递增的版本中存在更精细的空间结构的程度;
确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构,所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数;以及
显示和/或储存身体部位及相关联语意属性的所述优化结构。
16.如权利要求15的***,所述方法进一步包含:
针对所述最低分辨率版本的所述多个区域中的每一区域计算几何分数,所述几何分数关于所述多个区域间的角度及距离来计算某一区域与对应于所检测对象的参考对象所储存的参考数据相匹配的概率。
17.如权利要求16的***,其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分,所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。
18.如权利要求17的***,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数及几何分数。
19.如权利要求17的***,其中所述图像的所述下一个更高分辨率版本的所述多个分数包含外观分数、几何分数及分辨率内容脉络分数。
20.如权利要求19的***,其中所述图像的所述下一个更高分辨率版本的所述加权平均分是使用以下公式除以I来计算的:
其中I表示所述图像的所述下一个更高分辨率版本中的区域的数目,i为区域索引,∑i指示从i=1至i=I的求和,Ai表示区域i的外观分数,Gi表示区域i的几何分数,Ri表示区域i的分辨率内容脉络分数,且W1、W2及W3表示分别指派给所述外观分数、所述几何分数及所述分辨率内容脉络分数的权重。
21.如权利要求20的***,所述方法进一步包含:
储存和/或显示具有关于语意属性及相关联部位的空间信息的所述图像的所述较高层级版本中的至少一个版本中的所述图像的至少一部分的输出。
22.一种支持计算机基础架构的方法,所述方法包含提供用于建立、整合、代管、维护及部署计算机可读程序代码于计算机***中的至少其中之一的至少一种支持服务,其中结合所述计算***的程序代码能够执行用于估算视频中的对象的部位及属性的方法,所述方法包含:
接收视频输入;
从所述视频输入检测对象且从所述视频输入裁切所述对象的图像;
接收具有所述对象的相关联部位的多个语意属性;
产生并储存所述图像的多个版本,每一版本具有所述对象的所述图像的不同分辨率;
针对所述多个语意属性,计算在所述对象的所述图像的所述版本中的最低分辨率版本上的多个区域中的每一区域处的外观分数,针对每一区域的所述多个语意属性中的至少一个语意属性的所述外观分数指示所述至少一个语意属性中的每一语意属性出现于所述区域中的概率;
针对所述最低分辨率版本中的每一区域来分析分辨率相对于所述最低分辨率版本递增的版本,以计算分辨率内容脉络分数,所述最低分辨率版本中的所述分辨率内容脉络分数指示如下的程度,所述程度是针对每一区域,相比于最低分辨率版本,在所述分辨率递增的版本中存在更精细的空间结构的程度;
确定所述最低分辨率版本中的身体部位及相关联语意属性的优化结构,所述确定利用所述最低分辨率版本的各区域中的外观分数及分辨率内容脉络分数;以及
显示和/或储存身体部位及相关联语意属性的所述优化结构。
23.如权利要求22的方法,所述方法进一步包含:
针对所述最低分辨率版本的所述多个区域中的每一区域计算几何分数,所述几何分数关于所述多个区域间的角度及距离来计算某一区域与对应于所检测对象的参考对象所储存的参考数据相匹配的概率。
24.如权利要求23的方法,其中所述图像的较低分辨率版本的所述分辨率内容脉络分数被计算为加权平均分,所述加权平均分是从所述图像的所述较高分辨率版本的下一个更高分辨率版本的多个分数来计算的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/845,095 US8532390B2 (en) | 2010-07-28 | 2010-07-28 | Semantic parsing of objects in video |
US12/845,095 | 2010-07-28 | ||
PCT/EP2011/062925 WO2012013711A2 (en) | 2010-07-28 | 2011-07-27 | Semantic parsing of objects in video |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103703472A true CN103703472A (zh) | 2014-04-02 |
CN103703472B CN103703472B (zh) | 2016-12-07 |
Family
ID=44629362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180036737.3A Active CN103703472B (zh) | 2010-07-28 | 2011-07-27 | 用于确定视频中的对象的部位及相关属性的方法和*** |
Country Status (8)
Country | Link |
---|---|
US (6) | US8532390B2 (zh) |
JP (1) | JP5657113B2 (zh) |
KR (1) | KR101507662B1 (zh) |
CN (1) | CN103703472B (zh) |
DE (1) | DE112011101927B4 (zh) |
GB (1) | GB2495881B (zh) |
TW (1) | TWI505200B (zh) |
WO (1) | WO2012013711A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358573A (zh) * | 2017-06-16 | 2017-11-17 | 广东欧珀移动通信有限公司 | 图像美颜处理方法和装置 |
CN108337534A (zh) * | 2017-01-20 | 2018-07-27 | 韩华泰科株式会社 | 视频管理***和视频管理方法 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2009243528B2 (en) * | 2009-12-04 | 2013-08-01 | Canon Kabushiki Kaisha | Location-based signature selection for multi-camera object tracking |
US9134399B2 (en) | 2010-07-28 | 2015-09-15 | International Business Machines Corporation | Attribute-based person tracking across multiple cameras |
US8515127B2 (en) | 2010-07-28 | 2013-08-20 | International Business Machines Corporation | Multispectral detection of personal attributes for video surveillance |
US8532390B2 (en) | 2010-07-28 | 2013-09-10 | International Business Machines Corporation | Semantic parsing of objects in video |
US10424342B2 (en) | 2010-07-28 | 2019-09-24 | International Business Machines Corporation | Facilitating people search in video surveillance |
TW201217920A (en) * | 2010-10-22 | 2012-05-01 | Hon Hai Prec Ind Co Ltd | Avoiding clamped system, method, and electrically operated gate with the system |
US20130236065A1 (en) * | 2012-03-12 | 2013-09-12 | Xianwang Wang | Image semantic clothing attribute |
US8254647B1 (en) * | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
US20140317009A1 (en) * | 2013-04-22 | 2014-10-23 | Pangea Connect, Inc | Managing Online and Offline Interactions Between Recruiters and Job Seekers |
JP2016129269A (ja) * | 2013-04-22 | 2016-07-14 | パナソニック株式会社 | 画像・音声処理装置、集積回路、およびプログラム |
GB2519348B (en) * | 2013-10-18 | 2021-04-14 | Vision Semantics Ltd | Visual data mining |
US9600897B2 (en) * | 2013-10-31 | 2017-03-21 | Nec Corporation | Trajectory features and distance metrics for hierarchical video segmentation |
US20150317511A1 (en) * | 2013-11-07 | 2015-11-05 | Orbeus, Inc. | System, method and apparatus for performing facial recognition |
US20150142884A1 (en) * | 2013-11-21 | 2015-05-21 | Microsoft Corporation | Image Sharing for Online Collaborations |
US9668367B2 (en) | 2014-02-04 | 2017-05-30 | Microsoft Technology Licensing, Llc | Wearable computing systems |
KR102232797B1 (ko) | 2014-03-03 | 2021-03-26 | 에스케이플래닛 주식회사 | 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체 |
CN104103075A (zh) * | 2014-07-24 | 2014-10-15 | 北京邮电大学 | 一种多视角人体部件语义匹配方法和装置 |
KR101659657B1 (ko) * | 2014-09-29 | 2016-09-23 | 동명대학교산학협력단 | 개선된 리얼 아다부스트 알고리즘에 근거한 새로운 멀티 뷰 얼굴감지방식 |
US10437835B2 (en) | 2014-12-18 | 2019-10-08 | International Business Machines Corporation | Scoring attributes in a deep question answering system based on syntactic or semantic guidelines |
US10049273B2 (en) * | 2015-02-24 | 2018-08-14 | Kabushiki Kaisha Toshiba | Image recognition apparatus, image recognition system, and image recognition method |
US10582125B1 (en) * | 2015-06-01 | 2020-03-03 | Amazon Technologies, Inc. | Panoramic image generation from video |
AU2015203591A1 (en) * | 2015-06-26 | 2017-01-19 | Canon Kabushiki Kaisha | System and method for object matching |
US10289727B2 (en) | 2015-09-17 | 2019-05-14 | International Business Machines Corporation | Incorporation of semantic attributes within social media |
JP2017092899A (ja) * | 2015-11-17 | 2017-05-25 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
CN106022208A (zh) * | 2016-04-29 | 2016-10-12 | 北京天宇朗通通信设备股份有限公司 | 人体动作识别方法及装置 |
KR20180086048A (ko) * | 2017-01-20 | 2018-07-30 | 한화에어로스페이스 주식회사 | 카메라 및 카메라의 영상 처리 방법 |
US10460470B2 (en) * | 2017-07-06 | 2019-10-29 | Futurewei Technologies, Inc. | Recognition and reconstruction of objects with partial appearance |
US11210499B2 (en) * | 2018-07-06 | 2021-12-28 | Kepler Vision Technologies Bv | Determining a social group to which customers belong from appearance and using artificial intelligence, machine learning, and computer vision, for estimating customer preferences and intent, and for improving customer services |
DE102018212961A1 (de) * | 2018-08-02 | 2020-02-06 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Analyse eines Bildes |
CN110008802B (zh) | 2018-12-04 | 2023-08-29 | 创新先进技术有限公司 | 从多个脸部中选择目标脸部及脸部识别比对方法、装置 |
KR102217547B1 (ko) | 2019-05-14 | 2021-02-19 | 주식회사 아이에스피디 | 다중 인공지능 시맨틱 세그멘테이션 모델 결합에 의한 영상 처리 속도 및 정확도 개선 장치 및 방법 |
KR20200131424A (ko) | 2019-05-14 | 2020-11-24 | 주식회사 아이에스피디 | 인공지능 영상인식 시맨틱 세그멘테이션을 이용한 영상 처리 장치 및 방법 |
US11669743B2 (en) * | 2019-05-15 | 2023-06-06 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN110458005B (zh) * | 2019-07-02 | 2022-12-27 | 重庆邮电大学 | 一种基于多任务渐进配准网络的旋转不变人脸检测方法 |
US20210192905A1 (en) * | 2019-12-23 | 2021-06-24 | Evolon Technology, Llc | Mitigating effects caused by repeated and/or sporadic movement of objects in a field of view |
Family Cites Families (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US8604932B2 (en) | 1992-05-05 | 2013-12-10 | American Vehicular Sciences, LLC | Driver fatigue monitoring system and method |
JP3557659B2 (ja) * | 1994-08-22 | 2004-08-25 | コニカミノルタホールディングス株式会社 | 顔抽出方法 |
US5870138A (en) | 1995-03-31 | 1999-02-09 | Hitachi, Ltd. | Facial image processing |
JPH10222678A (ja) * | 1997-02-05 | 1998-08-21 | Toshiba Corp | 物体検出装置および物体検出方法 |
JPH11250071A (ja) | 1998-02-26 | 1999-09-17 | Minolta Co Ltd | 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体 |
US6608930B1 (en) | 1999-08-09 | 2003-08-19 | Koninklijke Philips Electronics N.V. | Method and system for analyzing video content using detected text in video frames |
DE19962201A1 (de) | 1999-09-06 | 2001-03-15 | Holger Lausch | Verfahren und Anordnung zur Erfassung und Analyse des Rezeptionsverhaltens von Personen |
US6795567B1 (en) | 1999-09-16 | 2004-09-21 | Hewlett-Packard Development Company, L.P. | Method for efficiently tracking object models in video sequences via dynamic ordering of features |
DE19960372A1 (de) | 1999-12-14 | 2001-06-21 | Definiens Ag | Verfahren zur Verarbeitung von Datenstrukturen |
US7006950B1 (en) | 2000-06-12 | 2006-02-28 | Siemens Corporate Research, Inc. | Statistical modeling and performance characterization of a real-time dual camera surveillance system |
US20050162515A1 (en) | 2000-10-24 | 2005-07-28 | Objectvideo, Inc. | Video surveillance system |
US6973201B1 (en) * | 2000-11-01 | 2005-12-06 | Koninklijke Philips Electronics N.V. | Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features |
US6792136B1 (en) | 2000-11-07 | 2004-09-14 | Trw Inc. | True color infrared photography and video |
JP2002175538A (ja) | 2000-12-08 | 2002-06-21 | Mitsubishi Electric Corp | 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法 |
US6829384B2 (en) | 2001-02-28 | 2004-12-07 | Carnegie Mellon University | Object finder for photographic images |
US6920236B2 (en) | 2001-03-26 | 2005-07-19 | Mikos, Ltd. | Dual band biometric identification system |
EP1260934A3 (en) * | 2001-05-22 | 2004-04-14 | Matsushita Electric Industrial Co., Ltd. | Surveillance recording device and method |
JP2003223414A (ja) | 2001-11-21 | 2003-08-08 | Matsushita Electric Ind Co Ltd | 属性情報保護システムと装置とコンピュータプログラム |
US20060165386A1 (en) | 2002-01-08 | 2006-07-27 | Cernium, Inc. | Object selective video recording |
JP2003219225A (ja) | 2002-01-25 | 2003-07-31 | Nippon Micro Systems Kk | 動体画像監視装置 |
US7274803B1 (en) | 2002-04-02 | 2007-09-25 | Videomining Corporation | Method and system for detecting conscious hand movement patterns and computer-generated visual feedback for facilitating human-computer interaction |
US7406184B2 (en) | 2002-07-03 | 2008-07-29 | Equinox Corporation | Method and apparatus for using thermal infrared for face recognition |
US8351647B2 (en) | 2002-07-29 | 2013-01-08 | Videomining Corporation | Automatic detection and aggregation of demographics and behavior of people |
EP1527416A1 (en) * | 2002-07-31 | 2005-05-04 | Koninklijke Philips Electronics N.V. | System and method for segmenting |
JP4151341B2 (ja) | 2002-08-02 | 2008-09-17 | 日産自動車株式会社 | 顔状態検出装置 |
AU2003282943A1 (en) | 2002-10-11 | 2004-05-04 | Digimarc Corporation | Systems and methods for recognition of individuals using multiple biometric searches |
US7257569B2 (en) | 2002-10-31 | 2007-08-14 | International Business Machines Corporation | System and method for determining community overlap |
AU2003235202A1 (en) | 2002-10-31 | 2004-05-25 | Korea Institute Of Science And Technology | Image processing method for removing glasses from color facial images |
US7764808B2 (en) | 2003-03-24 | 2010-07-27 | Siemens Corporation | System and method for vehicle detection and tracking |
US7395316B2 (en) | 2003-07-16 | 2008-07-01 | Sap Aktiengesellschaft | Establishing dynamic communication group by searching implicit information that is obtained through inference |
JP2005078376A (ja) * | 2003-08-29 | 2005-03-24 | Sony Corp | 対象物検出装置、対象物方法、及びロボット装置 |
US7450735B1 (en) | 2003-10-16 | 2008-11-11 | University Of Central Florida Research Foundation, Inc. | Tracking across multiple cameras with disjoint views |
US8421872B2 (en) | 2004-02-20 | 2013-04-16 | Google Inc. | Image base inquiry system for search engines for mobile telephones with integrated camera |
US7697026B2 (en) | 2004-03-16 | 2010-04-13 | 3Vr Security, Inc. | Pipeline architecture for analyzing multiple video streams |
JP4683200B2 (ja) | 2004-04-30 | 2011-05-11 | 花王株式会社 | 髪領域の自動抽出方法 |
GB2418310B (en) | 2004-09-18 | 2007-06-27 | Hewlett Packard Development Co | Visual sensing for large-scale tracking |
FR2875629B1 (fr) | 2004-09-23 | 2007-07-13 | Video & Network Concept Sarl | Systeme d'indexation de video de surveillance |
US20060184553A1 (en) | 2005-02-15 | 2006-08-17 | Matsushita Electric Industrial Co., Ltd. | Distributed MPEG-7 based surveillance servers for digital surveillance applications |
FR2884008A1 (fr) | 2005-03-31 | 2006-10-06 | France Telecom | Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones |
EP1901228B1 (en) * | 2005-06-08 | 2011-05-18 | Fujitsu Ltd. | Apparatus, method and program for image matching |
US7720257B2 (en) | 2005-06-16 | 2010-05-18 | Honeywell International Inc. | Object tracking system |
KR100724932B1 (ko) | 2005-08-02 | 2007-06-04 | 삼성전자주식회사 | 얼굴 검출 장치 및 방법 |
US7787011B2 (en) | 2005-09-07 | 2010-08-31 | Fuji Xerox Co., Ltd. | System and method for analyzing and monitoring 3-D video streams from multiple cameras |
JP2009508450A (ja) | 2005-09-13 | 2009-02-26 | ヴェリフィコン コーポレーション | 物体のトラッキングおよび活動分析のためのシステムおよび方法 |
US7599527B2 (en) | 2005-09-28 | 2009-10-06 | Facedouble, Inc. | Digital image search system and method |
JP2007148872A (ja) | 2005-11-29 | 2007-06-14 | Mitsubishi Electric Corp | 画像認証装置 |
JP4658788B2 (ja) | 2005-12-06 | 2011-03-23 | 株式会社日立国際電気 | 画像処理装置、画像処理方法およびプログラム |
US7613360B2 (en) | 2006-02-01 | 2009-11-03 | Honeywell International Inc | Multi-spectral fusion for video surveillance |
US7822227B2 (en) | 2006-02-07 | 2010-10-26 | International Business Machines Corporation | Method and system for tracking images |
US7864989B2 (en) | 2006-03-31 | 2011-01-04 | Fujifilm Corporation | Method and apparatus for adaptive context-aided human classification |
US20070254307A1 (en) * | 2006-04-28 | 2007-11-01 | Verseon | Method for Estimation of Location of Active Sites of Biopolymers Based on Virtual Library Screening |
US8208694B2 (en) | 2006-06-06 | 2012-06-26 | Thomas Jelonek | Method and system for image and video analysis, enhancement and display for communication |
US10078693B2 (en) | 2006-06-16 | 2018-09-18 | International Business Machines Corporation | People searches by multisensor event correlation |
US20070291118A1 (en) | 2006-06-16 | 2007-12-20 | Shu Chiao-Fe | Intelligent surveillance system and method for integrated event based surveillance |
US8131011B2 (en) | 2006-09-25 | 2012-03-06 | University Of Southern California | Human detection and tracking system |
US7881505B2 (en) | 2006-09-29 | 2011-02-01 | Pittsburgh Pattern Recognition, Inc. | Video retrieval system for human face content |
US8004394B2 (en) * | 2006-11-07 | 2011-08-23 | Rosco Inc. | Camera system for large vehicles |
CN101201822B (zh) * | 2006-12-11 | 2010-06-23 | 南京理工大学 | 基于内容的视频镜头检索方法 |
US20080159352A1 (en) * | 2006-12-27 | 2008-07-03 | Dhananjay Adhikari | Temperature calculation based on non-uniform leakage power |
JP5358083B2 (ja) | 2007-11-01 | 2013-12-04 | 株式会社日立製作所 | 人物画像検索装置及び画像検索装置 |
JP2010519860A (ja) | 2007-02-21 | 2010-06-03 | ピクセル ベロシティー,インク. | 広域監視のための拡張可能なシステム |
US7995106B2 (en) | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
KR100795160B1 (ko) | 2007-03-22 | 2008-01-16 | 주식회사 아트닉스 | 얼굴영역검출장치 및 검출방법 |
US20080252722A1 (en) | 2007-04-11 | 2008-10-16 | Yuan-Kai Wang | System And Method Of Intelligent Surveillance And Analysis |
ATE555433T1 (de) | 2007-04-26 | 2012-05-15 | Ford Global Tech Llc | Emotives beratungssystem und verfahren |
US7460149B1 (en) | 2007-05-28 | 2008-12-02 | Kd Secure, Llc | Video data storage, search, and retrieval using meta-data and attribute data in a video surveillance system |
US8432449B2 (en) | 2007-08-13 | 2013-04-30 | Fuji Xerox Co., Ltd. | Hidden markov model for camera handoff |
US8576281B2 (en) | 2007-09-12 | 2013-11-05 | Its-7 Pty Ltd | Smart network camera system-on-a-chip |
US7986828B2 (en) | 2007-10-10 | 2011-07-26 | Honeywell International Inc. | People detection in video and image data |
JP5273998B2 (ja) * | 2007-12-07 | 2013-08-28 | キヤノン株式会社 | 撮像装置、その制御方法及びプログラム |
WO2009117607A1 (en) | 2008-03-19 | 2009-09-24 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for automatically classifying face images |
JP4535164B2 (ja) * | 2008-04-09 | 2010-09-01 | ソニー株式会社 | 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム |
JP2009271577A (ja) | 2008-04-30 | 2009-11-19 | Panasonic Corp | 類似画像検索の結果表示装置及び類似画像検索の結果表示方法 |
TW200951884A (en) | 2008-06-02 | 2009-12-16 | Asia Optical Co Inc | Monitoring systems and control methods thereof |
TWI361093B (en) * | 2008-08-05 | 2012-04-01 | Ind Tech Res Inst | Measuring object contour method and measuring object contour apparatus |
FR2935498B1 (fr) | 2008-08-27 | 2010-10-15 | Eads Europ Aeronautic Defence | Procede d'identification d'un objet dans une archive video. |
US9342594B2 (en) | 2008-10-29 | 2016-05-17 | International Business Machines Corporation | Indexing and searching according to attributes of a person |
TW201020935A (en) * | 2008-11-20 | 2010-06-01 | Ind Tech Res Inst | Recognition and constitution method and system for video-based two-dimensional objects |
US20100150447A1 (en) | 2008-12-12 | 2010-06-17 | Honeywell International Inc. | Description based video searching system and method |
TWM381850U (en) | 2010-01-29 | 2010-06-01 | cai-zheng Xu | Small anti-theft device for recording images of event |
US8532390B2 (en) * | 2010-07-28 | 2013-09-10 | International Business Machines Corporation | Semantic parsing of objects in video |
US8254647B1 (en) | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
-
2010
- 2010-07-28 US US12/845,095 patent/US8532390B2/en active Active
-
2011
- 2011-07-27 DE DE112011101927.0T patent/DE112011101927B4/de active Active
- 2011-07-27 WO PCT/EP2011/062925 patent/WO2012013711A2/en active Application Filing
- 2011-07-27 GB GB1302234.8A patent/GB2495881B/en active Active
- 2011-07-27 CN CN201180036737.3A patent/CN103703472B/zh active Active
- 2011-07-27 JP JP2013521133A patent/JP5657113B2/ja active Active
- 2011-07-27 KR KR1020137002330A patent/KR101507662B1/ko active IP Right Grant
- 2011-07-28 TW TW100126926A patent/TWI505200B/zh not_active IP Right Cessation
-
2013
- 2013-03-04 US US13/783,749 patent/US8588533B2/en not_active Expired - Fee Related
- 2013-07-23 US US13/948,325 patent/US8774522B2/en active Active
-
2014
- 2014-03-07 US US14/200,497 patent/US9002117B2/en active Active
-
2015
- 2015-01-15 US US14/597,904 patent/US9245186B2/en active Active
-
2016
- 2016-01-18 US US14/997,789 patent/US9679201B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108337534A (zh) * | 2017-01-20 | 2018-07-27 | 韩华泰科株式会社 | 视频管理***和视频管理方法 |
CN108337534B (zh) * | 2017-01-20 | 2021-11-30 | 韩华泰科株式会社 | 视频管理***和视频管理方法 |
CN107358573A (zh) * | 2017-06-16 | 2017-11-17 | 广东欧珀移动通信有限公司 | 图像美颜处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2012013711A3 (en) | 2013-02-21 |
US8532390B2 (en) | 2013-09-10 |
DE112011101927B4 (de) | 2016-03-17 |
US8774522B2 (en) | 2014-07-08 |
US20130308868A1 (en) | 2013-11-21 |
GB2495881B (en) | 2017-05-03 |
US20160132730A1 (en) | 2016-05-12 |
US8588533B2 (en) | 2013-11-19 |
KR20130095727A (ko) | 2013-08-28 |
GB201302234D0 (en) | 2013-03-27 |
TW201227535A (en) | 2012-07-01 |
US20150131910A1 (en) | 2015-05-14 |
US20120027304A1 (en) | 2012-02-02 |
DE112011101927T5 (de) | 2013-09-05 |
US9002117B2 (en) | 2015-04-07 |
WO2012013711A2 (en) | 2012-02-02 |
US9245186B2 (en) | 2016-01-26 |
US20140185937A1 (en) | 2014-07-03 |
TWI505200B (zh) | 2015-10-21 |
JP5657113B2 (ja) | 2015-01-21 |
JP2013533563A (ja) | 2013-08-22 |
GB2495881A (en) | 2013-04-24 |
US9679201B2 (en) | 2017-06-13 |
US20130177249A1 (en) | 2013-07-11 |
CN103703472B (zh) | 2016-12-07 |
KR101507662B1 (ko) | 2015-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103703472B (zh) | 用于确定视频中的对象的部位及相关属性的方法和*** | |
Ye et al. | A review of accuracy assessment for object-based image analysis: From per-pixel to per-polygon approaches | |
Foody | Sample size determination for image classification accuracy assessment and comparison | |
Li et al. | Localizing and quantifying damage in social media images | |
Vittayakorn et al. | Runway to realway: Visual analysis of fashion | |
Corcoran et al. | Segmentation performance evaluation for object-based remotely sensed image analysis | |
US9576223B2 (en) | Method and system for evaluating the resemblance of a query object to reference objects | |
CN109815987B (zh) | 一种人群分类方法和分类*** | |
CN110232331B (zh) | 一种在线人脸聚类的方法及*** | |
Hao et al. | An Object‐Based Change Detection Approach Using Uncertainty Analysis for VHR Images | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和*** | |
CN111221960A (zh) | 文本检测方法、相似度计算方法、模型训练方法及装置 | |
Sharifi Noorian et al. | Detecting, classifying, and mapping retail storefronts using street-level imagery | |
Huh et al. | Identification of multi-scale corresponding object-set pairs between two polygon datasets with hierarchical co-clustering | |
CN102819838A (zh) | 基于多源目标特征支持的高光谱遥感图像变化检测方法 | |
Gurkan et al. | Evaluation of human and machine face detection using a novel distinctive human appearance dataset | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
Mohana et al. | Object detection and classification algorithms using deep learning for video surveillance applications | |
El Sayed et al. | 3D face detection based on salient features extraction and skin colour detection using data mining | |
US20230377188A1 (en) | Group specification apparatus, group specification method, and computer-readable recording medium | |
JP7358269B2 (ja) | 物体検出装置、物体検出システム、および、物体検出方法 | |
CN115457644B (zh) | 一种基于扩展空间映射获得目标的识图方法及装置 | |
KR20190043314A (ko) | 문서 내에서의 지문 탐지 및 마스킹 방법 | |
de Boissieu et al. | Phytoplankton global mapping from space with a support vector machine algorithm | |
CN115240212A (zh) | 图像检测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211103 Address after: USA New York Patentee after: Qindarui Co. Address before: USA New York Patentee before: International Business Machines Corp. |
|
TR01 | Transfer of patent right |