CN110850974A - 用于侦测意图兴趣点的方法及其*** - Google Patents
用于侦测意图兴趣点的方法及其*** Download PDFInfo
- Publication number
- CN110850974A CN110850974A CN201911058662.3A CN201911058662A CN110850974A CN 110850974 A CN110850974 A CN 110850974A CN 201911058662 A CN201911058662 A CN 201911058662A CN 110850974 A CN110850974 A CN 110850974A
- Authority
- CN
- China
- Prior art keywords
- interest
- point
- gaze
- information
- energy value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000003247 decreasing effect Effects 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 20
- 238000005315 distribution function Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000001508 eye Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000004397 blinking Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004434 saccadic eye movement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Ophthalmology & Optometry (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本揭露提供一种侦测人的意图兴趣点的方法。此方法包括以下步骤。从复数个第一影像取得一人的复数个注视信息。从至少一个第二影像取得至少一兴趣点的一位置信息。依据注视信息及至少一兴趣点决定一能量值。藉由最小化能量值以推测一意图兴趣点。当注视信息与一兴趣点相关联时,降低能量值;或当兴趣点在连续的时间段保持一致时,降低能量值。
Description
技术领域
本揭露是相关于一种用于侦测意图兴趣点的方法及其***,特别是关于一种侦测使用者注意的兴趣点的方法及其***。
背景技术
推测一个人的注意力或他们感兴趣的点可藉由处理一人的注视信息。传统上,通常使用一眼动追踪装置计算一人的注视向量,并辨识此用户在计算机屏幕上的注视点,即现有科技提供方法计算用户注视计算机屏幕上的坐标。然而,这不适用于推测使用者的意图兴趣点。在一物体导向环境中推测用户的意图兴趣点的能力有益于预测操作及/或服务。
发明内容
依据本揭露的一实施例,提供一种侦测人的意图兴趣点的方法。此方法包括以下步骤。从复数个第一影像取得一人的复数个注视信息。从至少一个第二影像取得至少一兴趣点的一位置信息。依据注视信息及至少一兴趣点决定一能量值。藉由最小化能量值以推测一意图兴趣点。当注视信息与一兴趣点相关联时,降低能量值;或当兴趣点在连续的时间段保持一致时,降低能量值。
依据本揭露的一实施例,提供一种***,用以侦测人的意图兴趣点。此***包括一注视处理器单元、一场景处理器单元及一推测处理器单元。注视处理器单元用以从复数个第一影像取得一人的复数个注视信息。场景处理器单元用以从至少一个第二影像取得至少一兴趣点的一位置信息。推测处理器单元耦接至注视处理器单元及场景处理器单元以接收复数个注视信息及至少一兴趣点的位置信息。推测处理器单元更用以执行下列指令。依据注视信息及至少一兴趣点决定一能量值。最小化能量值以推测一意图兴趣点。当注视信息与一兴趣点相关联时,降低能量值;或当兴趣点在连续的时间段保持一致时,降低能量值。
附图说明
图1绘示依据本揭露一实施例的一意图兴趣点侦测***的方块图。
图2绘示依据本揭露一实施例的一意图兴趣点侦测***在一车辆上应用的示意图。
图3绘示基于一二维平面的坐标***侦测兴趣点并取得其位置信息的一场景的一例。
图4绘示依据本揭露一实施例的一意图兴趣点侦测***在一机器人应用的示意图。
图5绘示包含多层节点以计算能量值、空间关系值和时间关系值的一模型的示意图。
图6绘示依据本揭露一实施例的意图兴趣点侦测方法的流程图。
具体实施方式
以下描述包含关于本揭露的示范性实作的具体信息。本揭露中的附图以及附上的详细描述仅应用于是示范性的实作。然而,本揭露不仅限于这些示范性的实作。本领域技术人员会想到本揭露的其他变形和实作。除非另有说明,附图中相同或对应的组件可以由相同或对应的附图标记所指示。此外,本揭露中的附图和说明通常不是按照比例绘制的,并且不意图按照实际的相对尺寸。
本揭露提供一种兴趣点侦测***,用以基于影像侦测人的意图兴趣点。此兴趣点可以是在任何静态或动态场景中人注意的任何预先决定的物体、图标、形状或目标。此***可以赋能各种有用的应用程序。在一些情况下,藉由在网页上、广告海报或任何静态或动态场景推测出人的意图兴趣点,此***可以了解此人的兴趣,仅提供此人感兴趣的相关内容或基于推测结果改善应用程序的内容。在其他情况下,此方法可用于人机界面自动化或人机交互中,从而更容易地实现人的目标。
在本揭露的一方面,侦测一人的意图的一意图兴趣点侦测***可从此人所面对的场景中取得人的注视信息和至少一个兴趣点的位置信息。每个兴趣点以一个机率值描述,此机率值指示此人是否正在注意代表的兴趣点。注视信息和至少一个兴趣点之间的关系可以被描述。此关系可以以一个值(例如,能量值)来描述,此能量值可以包括空间和/或时间因素,其中当注视位置与兴趣点的位置相关联及/或当兴趣点为在给定的时间段内保持一致时,降低能量值。可以通过寻找使能量值最小化的每个兴趣点的机率值来获得人所注意的兴趣点(即,意图兴趣点)。从一影像帧中的最大机率值相对应的代表兴趣点的节点被推测为意图兴趣点。通过使用这种方法,此***有效地消除了由眨眼,丢失的帧及/或移动/晃动环境引起的干扰和不良影响,从而实现了可靠和稳定地推测人注意的意图兴趣点的结果。
如图1所示,依据本揭露一实施例的意图兴趣点侦测***1包括至少一处理器10、一内存11、一场景摄影机12及一注视摄影机13。
处理器10可包含一场景处理器单元101、一注视处理器单元102及一推测处理器单元103。场景处理器单元101、注视处理器单元102及推测处理器单元103可由一单一或独立的计算装置或多个计算装置而实现。推测处理器单元103耦接至注视处理器单元102及场景处理器单元101。举例来说,注视处理器单元102及注视摄影机13可被包含在一眼动追踪装置内,此眼动追踪装置提供一人的注视信息到推测处理器单元103。在另一例中,场景处理器单元101及场景摄影机12可被包含在提供一场景中一或多个兴趣点的信息到推测处理器单元103的另一装置内。
处理器10可以是任何处理器,例如中央处理器单元(CPU)、微处理器、应用处理器、特殊应用集成电路(ASIC)、数字信号处理器(DSP)、现场可程序化逻辑门阵列(FPGA)或上述的组合,且不限于此。
内存11储存可被处理器10存取的信息,包含可被处理器10使用或执行的指令和数据。内存11可以是任何类型,包含一计算机可读取媒体、或可藉由电子装置的辅助而可被读取的其他媒体,例如一高速缓存、硬盘、存储卡、只读存储器、随机存取内存、数字多功能影音光盘或其他光盘、以及其他可写入和只读存储器。***和方法可以包括前述的不同组合,藉此不同部分的指令和数据的被存储在不同类型的媒体上。
指令可以是将由处理器10中的任何一个处理器单元直接地(例如,机器代码)或间接地(例如,脚本(script))执行的任何指令集。举例来说,指令可以被储存为计算机可读取媒体上的计算器代码。在这方面,术语“指令”和“程序”在本文中可以互换使用。指令可以以目标代码格式存储以供处理器单元直接处理,或者以任何其他计算器语言存储,计算器语言包括脚本或独立源代码模块的集合,其中源代码模块可以预先被编译成机器码,或在程序执行时动态地被直译成机器码。指令的功能,方法和常规程序将在下面更详细地说明。
虽然图1在同一个方块中使用功能性地说明意图兴趣点侦测***1的处理器单元101、102和103,然而本领域技术人员应当理解为处理器和内存可包含多个处理器及多个内存,且多个处理器及多个内存可被储存在同一实体外壳或被储存在不同实体外壳中。举例来说,内存可为一硬盘或位于不同于意图兴趣点侦测***1的外壳的其他储存媒体。
在本揭露的一方面,推测处理器单元103由注视摄影机13撷取的多个第一影像取得每一帧中一人的复数个注视信息。这些注视信息可以由注视处理器单元102计算而得。注视信息可以是一注视点、一注视区域或一注视区的一机率分布。注视点可以是定义在一平面上的一二维坐标***,例如可以是一屏幕、一显示器、一窗户、一挡风玻璃、或使用者前方的一虚拟平面。例如,注视点可以被定义为屏幕上的一组像素坐标。在另一例中,注视点可以是在挡风玻璃上预先定义的一格的一位置。注视区域可以是平面中的圆形或椭圆形区域。注视区的机率分布可以被定义为多个注视点和凝视点的聚集(aggregations)或者或注视区域和平面中兴趣点区域的重迭率。
推测处理器单元103更由场景摄影机12撷取的多个第二影像的多个帧中取得兴趣点的位置信息。在一实施例中,多个兴趣点可以是预先决定的。任何物体都可被视为一兴趣点,例如一标志、一窗户、一杯子、一车辆和一行人。兴趣点位置可藉由场景处理器单元101执行一物体侦测算法以侦测任何场景中预先决定的兴趣点的位置而被计算。侦测到的兴趣点的位置可以投影在注视信息的同一平面上的一边界框(bounding box)表示。本领域技术人员应当理解的是,边界框可以用边界框的左上角、宽度及高度的二维坐标表示,或边界框的两个对角线的角落表示。
第一影像可以是第一摄影机撷取的连续的帧用来撷取人的注视信息。在一静态环境中,第二影像可以是一静态场景,其中兴趣点可以是预先决定的。在一些情况下,场景摄影机13可以由任何显示设备产生一场景(如一网页、一图片等)而被取代。在一动态环境中,动态场景可以是由场景摄影机13撷取以建立多个第二影像。
在本揭露的一方面,意图兴趣点侦测***可以用在一车辆中以推测车辆驾驶人或乘客的意图兴趣点。在一实施例中,车辆可以安装两个摄影机***以能同时撷取车辆内部及外部的视野,其中朝向外部的摄影机撷取周围环境的影像,且朝向内部的摄影机撷取人眼的影像以分析注视。图2说明依据本揭露的一车辆的一例。在此例中,摄影机22安装在挡风玻璃20上的后视镜附近以撷取街景,摄影机23安装在方向盘的中央以捕捉驾驶人的脸部。摄影机22和23可耦接到处理器,处理器可位于车辆内部及/或在远程连接的一云端,以计算驾驶人的注视信息,获取场景中的兴趣点的信息,并推测出驾驶人在场景的注意的一点。如图3所示,三维场景被投影到二维平面30上,在其中侦测到街景中的兴趣点POI1~POI4,例如商店招牌、广告广告牌、其他车辆、行人或特定物体,且这些信息由兴趣点侦测***2的场景处理器单元提供。兴趣点的信息可以由边界框定义,边界框指示位置和尺寸信息。
在本揭露的一方面,意图兴趣点侦测***可以用于一机器人***,其中机器人需要藉由观察人类注意哪个物体以理解一人类意图。图4说明依据本揭露的一种机器人应用的一例。在此例中,场景摄影机和注视摄影机可位于机器人40的一视觉***42内。兴趣点的边界框可以是由一场景处理器单元101所计算而得的。可以是由一注视处理器单元102计算得到此人的一注视向量,且可以藉由投影此注视向量到视觉***42的一影像平面上计算得到一注视点。场景处理器单元101可以藉由一物体侦测算法辨识兴趣点P401~P405。兴趣点的机率值可以是注视点和兴趣点的边界框之间的距离的一因素。当注视点和兴趣点的边界框之间的距离增加,则机率值降低。
在本揭露的一方面,意图兴趣点侦测***可以用于从一影像显示设备的场景中推测意图兴趣点。在此情况下,可不需要场景摄影机12,兴趣点的位置可以从影像显示设备中取得。场景中的兴趣点可以藉由使用一物体侦测算法而辨识出来或者藉由手动标签而得。
在一实施例中,使用眼动追踪装置计算注视点,且藉由一物体侦测算法侦测场景中的兴趣点。为了推测意图兴趣点,推测处理器单元103从多个影像取得注视点和兴趣点的位置信息的输入。注视信息与至少一兴趣点之间的关系被描述为一能量值,其中当注视位置与兴趣点的位置相关联时,降低此能量值,或者当意图兴趣点在连续的帧中为一致时,降低此能量值。依据图5所示的一模型来描述此关系。此模型包含代表W个帧的注视点的第一层节点510(1)~510(W)、代表使用者注意的N个兴趣点POI1~POIN的机率值的第二层节点521(1)~521(W)、522(1)~522(W)、……、52N(1)~52N(W)、及代表使用者并未注意任何兴趣点的机率值的第二层节点520(1)~520(W)。在一实施例中,第一层节点510(1)~510(W)的值可以是以二维坐标形式在一平面上表示。在一独热(one-hot)方法中,将每个帧的第二层节点的机率值取为“1”或“0”,即,对于每个影像帧,第二层节点中只有一个节点被设定为“1”,其中值为“1”的节点比同一影像帧中其他第二层的节点拥有最大的机率值。举例来说,在第W帧中,如果使用者正在注意兴趣点POI 2,则第二层节点520(W)、521(W)、……、52N(W)的值为[0,0,1,0…,0]。
能量值可以由一空间关系来描述,或者由一时间关系来描述。空间关系的值可由第一层节点的多个注视信息和每一个帧中的第二层节点的至少一兴趣点来决定。当代表第一层节点的注视点的位置与代表第二层节点的兴趣点的一位置相关联时,降低空间关系的值。时间关系值由第二层节点中的至少一个兴趣点决定。当第二层节点的机率值在连续的影像帧中为一致时,降低时间关系的值。使用者的意图兴趣点是从能量值最小的影像中第二层节点的最大机率值相对应的节点推测出来的。
推测处理器单元可以动态地描述能量值,其中第二层节点可依据给定的场景而变化。模型中的帧数W可以是调整参数(hyperparameter)。在一实施例中,调整参数W可基于其他环境因素动态地调整,例如依据用户的移动速率、场景中兴趣点的移动速率及/或摄影机的帧率。举例来说,当摄影机的帧率增加时,可以将W设置得较高,以消除眨眼的干扰。
在一实施例中,兴趣点的位置信息可以从物体检测算法中获得的,其中潜在的兴趣点由边界框标识。在另一实施例中,兴趣点的位置信息可以由从影像分割(imagesegmentation)算法获得的物体的轮廓表示。但是本发明不限于此,可以使用各种算法来追踪和识别兴趣点。
在一实施例中,推测处理器单元103推导出第一层节点以及第二层节点,其中每个第一层节点代表一影像帧的一个注视点,其中每个第二层节点代表使用者正在注意的一兴趣点的机率值。第二层节点的数量可基于从第二影像获得的至少一个兴趣点的数量而动态地改变。推测处理器单元103寻找能量值最小的多个第二层节点中的机率值。当目前的帧结果可以用于下一个帧推测的起始点。对应于最大机率值的兴趣点的节点被视为意图兴趣点。
注视信息与至少一兴趣点之间的空间关系包含人的一注视点到至少一兴趣点的一位置信息的一似然性(likelihood)。应当注意的是,多个注视信息与至少一个兴趣点之间的关系是给定正在注意的特定的兴趣点时获得注视信息的似然性。此外,此关系还包括在连续的帧中注意的同一兴趣点的时间关系。
在一实施例中,图5中的第一层节点(即顶层节点)的值可以是从过去W-1帧到目前的帧的注视点的像素坐标,且第二层节点(即底层节点)的值可以是使用者注意的兴趣点的机率。第一层节点bt和第二层节点ct,i的数学表示法如下所示:
{ct,i:t∈Z,T-W+1≤t≤T;i=na,1,2,...,N}
其中场景中的兴趣点以1、2、……、N标示,且“na”代表使用者并未注意任何标注的兴趣点。在此实施利中,每个注视点(顶层节点)bt都连接到在每个时间段中的所有兴趣点(底层节点)ct,i。也就是说,每个bt连接到对应的ct,i(s)以形成一内部骨干(inter bone)。内部骨干系在每对相邻的ct,i节点之间形成。由每一时间段t的向量ct,i=na,1,…,N提供的推测结果被约束为由所有元素中均由“0”组成,只有单个“1”除外唯一地用于辨识意图兴趣点的一个独热(one-hot)向量。藉由T-W+1≤t≤T,i=na,1,…,N的条件来寻找ct,i的值使能量值最小化以计算推测结果。如果场景是动态的,则模型中的节点可基于兴趣点的数量动态地更改。
可基于多变量高斯分布、或注视区域和兴趣点区域的重迭率或上述两者的组合而计算似然性。在一实施例中,假设给定一兴趣点ct,i的正在注意的注视点bt的似然性遵循一高斯函数,此高斯函数以兴趣点的边界框中心ut,i为中心,并具有关于边际框尺寸(即宽度和高度)的协方差矩阵(covariance matrix)Σ。也就是以下列式子描述:
在另一实施例中,可依据人的注视区域的尺寸来定义协方差矩阵。
根据空间关系和时间关系值将能量值最小化。当使用者的注视点与至少一兴趣点的位置相关或对齐时,最小化空间关系的值;并且如果意图兴趣点在连续的影像帧上为一致时,则最小化时间关系的值。在一实施例中,能量值可以是藉由以下函数获得的:
上式是一个正的常数。空间关系由前两项组成(如下所示):
为了追踪使用者的注视点的意图兴趣点的趋势,时间关系的特征被描述在最后一项(如下所示):
为了保持注意的兴趣点的一致性的趋势,例如,消除由于上述提到的眨眼、移动/晃动/眼球的快速移动(saccade)的效果而引起的尖峰和离群值。可以通过优化以下等式中的函数来获得推测意图兴趣点的结果:
使得ct,i∈{0,1},∑i ct,i=1
通常在几次迭代后即可获得结果。如果兴趣点ct,i等于1,则兴趣点ct,i对应到此人的意图兴趣点。意图兴趣点可以是至少一兴趣点的其中一个。在实务上,可用的兴趣点的数量可以在不同帧之间动态地变化。举例来说,当用户驾驶车辆沿着街道行驶时,某些兴趣点可能被场景中的其他车辆之类的物体遮挡,因此它们会在一段时间内消失。在一些情况下,因为物体识别***无法识别场景中的所有兴趣点,可用的兴趣点数量有所变化。因此,***可依据在时间段出现在影像帧中的兴趣点,对如图5所示的节点进行建模,并为所有节点计算似然性。如果一兴趣点在某个时间段消失,则先将零机率分配给模型中其对应的第二层节点。也就是说,使用者注意的意图兴趣点并不是某一特定影像帧的兴趣点(因为被遮挡)。
第6图绘示推测人的意图兴趣点的一示范程序的流程图。程序600可以由一种包含位于一或多个位置的一或多个计算单元***执行的。举例来说,图1的意图兴趣点侦测***1可以执行程序600。应当理解的是,除非另有说明,程序600中的步骤可以并行地、组合地或以不同的顺序来执行,或者藉由更少或额外的步骤、或者藉由类似的替代步骤来执行。
程序600包含下列步骤。在S600中,从复数个第一影像取得一人的复数个注视信息。在S601中,从至少一个第二影像取得至少一兴趣点的一位置信息。在S602中,建立复数个第一层节点,其中每一第一层节点储存在一个帧中的复数个注视信息的其中一个的值。在S603中,建立复数个第二层节点,其中至少一个第二层节点在时间上系对应于每一个第一层节点,且每一个第二层节点代表一个帧中的一个兴趣点,且第二层节点的值为指示此人是否注意代表的兴趣点的一机率值。在S604中,依据复数个注视信息及至少一兴趣点的位置信息决定一能量值。依据一空间关系及/或一时间关系取得此能量值,其中空间关系的值系依据第一层节点的复数个注视信息及每一个帧中第二层节点的至少一兴趣点来决定,且时间关系值由第二层节点中的至少一个兴趣点决定。在S605中,寻找能量值最小的多个第二层节点中的值来推测意图兴趣点。在前述实施例中描述了进一步的细节,因此为简洁起见在此省略细节。
综上所述,本揭露提供多种意图兴趣点侦测***及侦测人的意图兴趣点的方法。上面所示或所描述的实作仅为例子。虽然在前面的描述中已经描述了本揭露的许多特征和优点,包含了本揭露的结构和功能的细节,但本揭露仅是说明性的,并且可在本揭露的原理内及包含权利要求所使用的用以的最广一般含义的全部范围内,对细节上作改变,包含各组件的形状、尺寸、和布置。
Claims (20)
1.一种用于侦测一人的一意图兴趣点的方法,其特征在于,包括:
从复数个第一影像取得该人的复数个注视信息;
从至少一个第二影像取得至少一兴趣点的一位置信息;
依据该些注视信息及该至少一兴趣点决定一能量值,其中当该注视信息与一兴趣点相关联时,降低该能量值;或当该兴趣点在连续的时间段保持一致时,降低该能量值;以及
藉由最小化该能量值以推测一意图兴趣点。
2.如权利要求1所述的方法,其中该些第一影像系为一第一摄影机撷取的多个连续的帧。
3.如权利要求2所述的方法,其中该些连续的帧的数量可依据该人的移动速率、或该至少一兴趣点的移动速率或该第一摄影机的一帧率而被决定。
4.如权利要求2所述的方法,更包括:
建立复数个第一层节点,其中该每一个第一层节点储存在一个帧中的该些注视信息的其中一个的值;
建立复数个第二层节点,其中该至少一个第二层节点在时间上系对应于该每一个第一层节点,且该每一个第二层节点代表该一个帧中的该一个兴趣点,且该些第二层节点的一值为指示该人是否注意代表的该兴趣点的一机率值;
依据该些第一层节点及时间上对应该些第一层节点的该至少一第二层节点决定一空间关系,其中当代表该第一层节点的该注视信息与代表该第二层节点的该兴趣点的该位置信息相关联时,降低该空间关系的值;
依据不同帧中的该些第二层节点决定一时间关系,其中当代表该兴趣点的该第二层节点的该值在连续的帧中为一致时,降低该时间关系的值;及
依据该空间关系或该时间关系最小化该能量值,并从一影像中能量值最小的该第二层节点的最大机率值相对应的节点推测出该意图兴趣点。
5.如权利要求4所述的方法,其中最小化该能量值的步骤以推测该意图兴趣点的步骤更包括:
寻找能量值最小的该些第二层节点中的复数个值。
6.如权利要求4所述的方法,其中该些第二层节点的数量系基于该些兴趣点的数量动态地改变。
7.如权利要求1所述的方法,其中该些注视信息为一注视点、一注视区域或一注视区的一机率分布。
8.如权利要求4所述的方法,其中该些注视信息与该至少一兴趣点之间的该空间关系包含该人的一注视点到该至少一兴趣点的该位置信息的一似然性。
9.如权利要求1所述的方法,其中该意图兴趣点是该至少一兴趣点的其中一个。
10.如权利要求8所述的方法,其中该似然性系基于一高斯分布函数而计算。
11.一种意图兴趣点侦测***,其特征在于,包括:
一注视处理器单元,用以取得从复数个第一影像取得一人的复数个注视信息;
一场景处理器单元,用以从至少一个第二影像取得至少一兴趣点的一位置信息;以及
一推测处理器单元,耦接至该注视处理器单元及该场景处理器单元,其中该推测处理单元用以接收该些注视信息及该至少一兴趣点的该位置信息,并用以执行下列指令:
依据该些注视信息及该至少一兴趣点决定一能量值;及
藉由最小化该能量值以推测一意图兴趣点;
其中当该注视信息与一兴趣点相关联时,降低该能量值;或当该兴趣点在连续的时间段保持一致时,降低该能量值。
12.如权利要求11所述的意图兴趣点侦测***,其中该些第一影像系为一第一摄影机撷取的多个连续的帧。
13.如权利要求12所述的意图兴趣点侦测***,其中该些连续的帧的数量可依据该人的移动速率、或该至少一兴趣点的移动速率或该第一摄影机的一帧率而被决定。
14.如权利要求12所述的意图兴趣点侦测***,其中该推测处理器单元更用以执行下列指令:
建立复数个第一层节点,其中该每一个第一层节点储存在一个帧中的该些注视信息的其中一个的值;
建立复数个第二层节点,其中该至少一个第二层节点在时间上系对应于该每一个第一层节点,且该每一个第二层节点代表该一个帧中的该一个兴趣点,且该些第二层节点的一值为指示该人是否注意代表的该兴趣点的一机率值;
依据该些第一层节点及时间上对应该些第一层节点的该至少一第二层节点决定一空间关系,其中当代表该第一层节点的该注视信息与代表该第二层节点的该兴趣点的该位置信息相关联时,降低该空间关系的值;
依据不同帧中的该些第二层节点决定一时间关系,其中当代表该兴趣点的该第二层节点的该值在连续的帧中为一致时,降低该时间关系的值;及
依据该空间关系或该时间关系最小化该能量值,并从一影像中能量值最小的该第二层节点的最大机率值相对应的节点推测出该意图兴趣点。
15.如权利要求14所述的意图兴趣点侦测***,其中该推测处理器单元更用以寻找能量值最小的该些第二层节点中的复数个值。
16.如权利要求14所述的意图兴趣点侦测***,其中该些第二层节点的数量系基于该些兴趣点的数量动态地改变。
17.如权利要求11所述的意图兴趣点侦测***,其中该些注视信息为一注视点、一注视区域或一注视区的一机率分布。
18.如权利要求14所述的意图兴趣点侦测***,其中该些注视信息与该至少一兴趣点之间的该空间关系包含该人的一注视点到该至少一兴趣点的该位置信息的一似然性。
19.如权利要求11所述的意图兴趣点侦测***,其中该意图兴趣点是该至少一兴趣点的其中一个。
20.一种用于侦测一人的一意图兴趣点的方法,包括:
从复数个撷取影像取得该人的复数个注视信息;
从该些撷取影像取得至少一兴趣点的一位置信息;
依据该些注视信息及该至少一兴趣点决定一能量值;以及
藉由最小化该能量值以推测一意图兴趣点;
其中当该注视信息与一兴趣点相关联时,降低该能量值;或当该兴趣点在连续的时间段保持一致时,降低该能量值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/178610 | 2018-11-02 | ||
US16/178,610 US10846876B2 (en) | 2018-11-02 | 2018-11-02 | Intended interest point detection method and system thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110850974A true CN110850974A (zh) | 2020-02-28 |
Family
ID=69598321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911058662.3A Pending CN110850974A (zh) | 2018-11-02 | 2019-11-01 | 用于侦测意图兴趣点的方法及其*** |
Country Status (2)
Country | Link |
---|---|
US (1) | US10846876B2 (zh) |
CN (1) | CN110850974A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833253A (zh) * | 2020-07-20 | 2020-10-27 | 北京百度网讯科技有限公司 | 兴趣点空间拓扑构建方法和装置、计算机***和介质 |
CN112654546A (zh) * | 2020-04-30 | 2021-04-13 | 华为技术有限公司 | 用户感兴趣对象的识别方法以及识别装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10882398B2 (en) * | 2019-02-13 | 2021-01-05 | Xevo Inc. | System and method for correlating user attention direction and outside view |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102752325A (zh) * | 2011-04-18 | 2012-10-24 | 贾金原 | 基于对等网的大规模虚拟场景的高效下载方法 |
CN103842042A (zh) * | 2012-11-20 | 2014-06-04 | 齐麟致 | 一种信息处理方法和信息处理装置 |
US20140361973A1 (en) * | 2013-06-06 | 2014-12-11 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
CN104463916A (zh) * | 2014-12-31 | 2015-03-25 | 武汉大学 | 基于随机游走的眼动注视点测定方法 |
CN105426399A (zh) * | 2015-10-29 | 2016-03-23 | 天津大学 | 一种基于眼动的提取图像兴趣区域的交互式图像检索方法 |
CN105469025A (zh) * | 2014-10-06 | 2016-04-06 | 由田新技股份有限公司 | 注意力侦测装置及其侦测方法 |
CN106415442A (zh) * | 2014-05-08 | 2017-02-15 | 索尼公司 | 便携式电子设备和控制便携式电子设备的方法 |
JP2017182628A (ja) * | 2016-03-31 | 2017-10-05 | 株式会社エヌ・ティ・ティ・データ | 拡張現実ユーザインタフェース適用装置および制御方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106662917B (zh) * | 2014-04-11 | 2020-06-12 | 脸谱科技有限责任公司 | 眼睛跟踪校准***和方法 |
-
2018
- 2018-11-02 US US16/178,610 patent/US10846876B2/en active Active
-
2019
- 2019-11-01 CN CN201911058662.3A patent/CN110850974A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102752325A (zh) * | 2011-04-18 | 2012-10-24 | 贾金原 | 基于对等网的大规模虚拟场景的高效下载方法 |
CN103842042A (zh) * | 2012-11-20 | 2014-06-04 | 齐麟致 | 一种信息处理方法和信息处理装置 |
US20140361973A1 (en) * | 2013-06-06 | 2014-12-11 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
CN106415442A (zh) * | 2014-05-08 | 2017-02-15 | 索尼公司 | 便携式电子设备和控制便携式电子设备的方法 |
CN105469025A (zh) * | 2014-10-06 | 2016-04-06 | 由田新技股份有限公司 | 注意力侦测装置及其侦测方法 |
CN104463916A (zh) * | 2014-12-31 | 2015-03-25 | 武汉大学 | 基于随机游走的眼动注视点测定方法 |
CN105426399A (zh) * | 2015-10-29 | 2016-03-23 | 天津大学 | 一种基于眼动的提取图像兴趣区域的交互式图像检索方法 |
JP2017182628A (ja) * | 2016-03-31 | 2017-10-05 | 株式会社エヌ・ティ・ティ・データ | 拡張現実ユーザインタフェース適用装置および制御方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112654546A (zh) * | 2020-04-30 | 2021-04-13 | 华为技术有限公司 | 用户感兴趣对象的识别方法以及识别装置 |
WO2021217575A1 (zh) * | 2020-04-30 | 2021-11-04 | 华为技术有限公司 | 用户感兴趣对象的识别方法以及识别装置 |
CN112654546B (zh) * | 2020-04-30 | 2022-08-02 | 华为技术有限公司 | 用户感兴趣对象的识别方法以及识别装置 |
CN111833253A (zh) * | 2020-07-20 | 2020-10-27 | 北京百度网讯科技有限公司 | 兴趣点空间拓扑构建方法和装置、计算机***和介质 |
CN111833253B (zh) * | 2020-07-20 | 2024-01-19 | 北京百度网讯科技有限公司 | 兴趣点空间拓扑构建方法和装置、计算机***和介质 |
Also Published As
Publication number | Publication date |
---|---|
US10846876B2 (en) | 2020-11-24 |
US20200143562A1 (en) | 2020-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Sail-vos: Semantic amodal instance level video object segmentation-a synthetic dataset and baselines | |
US10261574B2 (en) | Real-time detection system for parked vehicles | |
US8599252B2 (en) | Moving object detection apparatus and moving object detection method | |
Kim et al. | Spatiotemporal saliency detection for video sequences based on random walk with restart | |
KR102275452B1 (ko) | 색상과 형태를 동시에 고려한 실시간 영상 추적 방법 및 이를 위한 장치 | |
US7944454B2 (en) | System and method for user monitoring interface of 3-D video streams from multiple cameras | |
US9070023B2 (en) | System and method of alerting a driver that visual perception of pedestrian may be difficult | |
US8706663B2 (en) | Detection of people in real world videos and images | |
Lin et al. | Learning a scene background model via classification | |
JP2020061146A (ja) | 畳み込みニューラルネットワークを利用してpoi変化を検出するためのシステムおよび方法 | |
US20210124928A1 (en) | Object tracking methods and apparatuses, electronic devices and storage media | |
CN110850974A (zh) | 用于侦测意图兴趣点的方法及其*** | |
US20210117704A1 (en) | Obstacle detection method, intelligent driving control method, electronic device, and non-transitory computer-readable storage medium | |
TWI668669B (zh) | 物件追蹤系統及方法 | |
WO2019057197A1 (zh) | 运动目标的视觉跟踪方法、装置、电子设备及存储介质 | |
CN112200131A (zh) | 一种基于视觉的车辆碰撞检测方法、智能终端及存储介质 | |
US20220415049A1 (en) | Enhancing detection of occluded objects in a multiple object detection system | |
Pan et al. | Depth map completion by jointly exploiting blurry color images and sparse depth maps | |
Hu et al. | Real-time video stabilization for fast-moving vehicle cameras | |
JP6798609B2 (ja) | 映像解析装置、映像解析方法およびプログラム | |
EP4207066A1 (en) | Object tracking method and apparatus, device, and a computer-readable storage medium | |
Konno et al. | Incremental multi-view object detection from a moving camera | |
JP2013149146A (ja) | 物体検知装置、物体検知方法、および、コンピュータ・プログラム | |
Fuentes et al. | Spatial multilevel optical flow architecture-based dynamic motion estimation in vehicular traffic scenarios | |
CN111640071A (zh) | 基于卷积神经网络修复帧差法获取全景前景目标的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220615 Address after: 7 / F, 218, section 6, rosford Road, Wenshan District, Taipei, Taiwan, China Applicant after: MINDTRONIC AI Co.,Ltd. Applicant after: Yizhi artificial intelligence technology (Suzhou) Co., Ltd Address before: 7 / F, 218, section 6, rosford Road, Wenshan District, Taipei, Taiwan, China Applicant before: MINDTRONIC AI Co.,Ltd. |
|
TA01 | Transfer of patent application right |