CN115191928A - 信息处理装置、信息处理方法、学习方法以及存储介质 - Google Patents
信息处理装置、信息处理方法、学习方法以及存储介质 Download PDFInfo
- Publication number
- CN115191928A CN115191928A CN202210251428.8A CN202210251428A CN115191928A CN 115191928 A CN115191928 A CN 115191928A CN 202210251428 A CN202210251428 A CN 202210251428A CN 115191928 A CN115191928 A CN 115191928A
- Authority
- CN
- China
- Prior art keywords
- image
- sight
- line
- person
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/113—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30268—Vehicle interior
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Ophthalmology & Optometry (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Heart & Thoracic Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及信息处理装置、信息处理方法、学习方法以及存储介质。提供对用于基于人物的眼睛的图像估计该人物的视线的学习模型有利于使视线的估计精度和学习效率提高的技术。用于估计人物的视线的信息处理装置具备:生成输入到构成为当输入眼睛的图像时输出视线的运算结果的模型的输入图像的生成部件;共通地使用所述模型来执行估计人物的左眼和右眼中的一方的视线的处理以及估计另一方的视线的处理的运算部件,生成部件将使所述一方的图像反转而成的反转图像生成为在估计一方的视线的处理中输入到所述模型的所述输入图像,将没有使所述另一方的图像反转的非反转图像生成为在估计另一方的视线的处理中输入到所述模型的所述输入图像。
Description
技术领域
本发明涉及用于估计人物的视线的技术。
背景技术
在专利文献1中提出了基于拍摄驾驶员的眼球或者面部而得到的拍摄图像来检测驾驶员的视线的技术。
现有技术文献
专利文献
专利文献1:日本特开2005-278898号公报
发明内容
发明所要解决的问题
本发明的目的在于,提供在用于基于人物的眼睛的图像来估计该人物的视线的学习模型中有利于使视线的估计精度和学习效率提高的技术。
用于解决问题的方案
为了实现上述目的,作为本发明的一方面的信息处理装置是一种估计人物的视线的信息处理装置,其特征在于,具备:生成部件,其生成输入到如下模型的输入图像,所述模型构成为当输入眼睛的图像时输出视线的运算结果;以及运算部件,其共通地使用所述模型来执行估计所述人物的左眼和右眼中的一方的视线的处理以及估计所述人物的左眼和右眼中的另一方的视线的处理,所述生成部件将使所述一方的图像反转而成的反转图像生成为在估计所述一方的视线的处理中输入到所述模型的所述输入图像,将没有使所述另一方的图像反转的非反转图像生成为在估计所述另一方的视线的处理中输入到所述模型的所述输入图像。
为了实现上述目的,作为本发明的一方面的信息处理方法是一种估计人物的视线的信息处理方法,其特征在于,包括:生成工序,生成输入到如下模型的输入图像,所述模型构成为当输入眼睛的图像时输出视线的运算结果;以及运算工序,共通地使用所述模型来执行第一处理及第二处理,所述第一处理为估计所述人物的左眼和右眼中的一方的视线,所述第二处理为估计所述人物的左眼和右眼中的另一方的视线,在所述生成工序中,将使所述一方的图像反转而成的反转图像生成为在所述第一处理中输入到所述模型的所述输入图像,将没有使所述另一方的图像反转的非反转图像生成为在所述第二处理中输入到所述模型的所述输入图像。
为了实现上述目的,作为本发明的一方面的学习方法是一种估计人物的视线的信息处理装置的学习方法,其特征在于,包括:估计工序,使所述信息处理装置基于所述人物的眼睛的图像来估计所述人物的视线;获取工序,获取在得到所述图像时的所述人物的视线的信息作为训练数据;以及学习工序,使所述信息处理装置进行学习,以使在所述估计工序中估计出的所述人物的视线与作为所述训练数据的在所述获取工序中获取到的所述人物的视线之间的偏差量减小,在所述估计工序中,作为所述人物的眼睛的图像,使用使所述人物的左眼和右眼中的一方的图像反转而成的反转图像以及没有使所述人物的左眼和右眼中的另一方的图像反转的非反转图像。
发明的效果
根据本发明,例如能够提供在用于基于人物的眼睛的图像估计该人物的视线的学习模型中有利于使视线的估计精度和学习效率提高的技术。
附图说明
图1是表示使用了本发明涉及的信息处理装置的***的结构例的图。
图2是表示拍摄图像、提取图像以及输入图像的一例的图。
图3是用于说明在信息处理装置中应用的学习模型的图。
图4是表示由信息处理装置进行的估计处理的流程图。
图5是表示机器学习中的输入输出的构造的示意图。
图6是表示信息处理装置中的学习方法的流程图。
附图标记说明
1:信息处理装置;1a:存储部;1b:通信部;1c:生成部;1d:模型运算部;2:拍摄部;3:外部装置。
具体实施方式
以下,参照附图说明本发明的实施方式。本发明并不限定于以下的实施方式,也包括本发明的宗旨的范围内的结构的变更、变形。另外,本发明并不需要本实施方式中说明的全部特征的组合。而且,对同一的结构要素标注同一的附图标记,省略其说明。
图1是表示使用了本发明涉及的一实施方式的信息处理装置1的***A的结构例的框图。本实施方式的***A具备信息处理装置1、拍摄部2以及外部装置3。拍摄部2例如包括摄像机,以图像内包括人物的面部的方式拍摄该人物。例如,在本实施方式的***A应用于车辆的情况下,拍摄部2能够配置为对就座于该车辆的驾驶座的驾驶员进行拍摄。另外,外部装置3是获取由信息处理装置1估计出的人物的视线信息并基于该视线信息进行各种处理的装置。例如,在本实施方式的***A应用于车辆的情况下,外部装置3是控制该车辆的控制单元(作为一例,ECU(Electronic Control Unit):电子控制单元),基于由信息处理装置1估计出的驾驶员(人物)的视线信息,检测驾驶员在驾驶中朝向哪里。外部装置3也可以是对车辆的自动驾驶进行控制的控制单元。
信息处理装置1是包括以CPU为代表的处理器、半导体存储器等存储设备、与外部设备的接口等的计算机,执行基于拍摄部2得到的人物的图像来估计(决定、计算)该人物的视线的估计处理。“人物的视线”被定义为该人物正在看的方向,也可以理解为视线方向或者视线矢量。在本实施方式的情况下,信息处理装置1能够包括存储部1a、通信部1b、生成部1c以及模型运算部1d。在存储部1a中,除了储存有处理器执行的程序、各种数据以外,还储存有后述的学习模型、学习数据等,信息处理装置1能够通过读取并执行储存于存储部1a的程序等,进行上述估计处理。在此,信息处理装置1执行的程序也能够存储于CD-ROM、DVD等存储介质,从该存储介质安装到信息处理装置1中。
信息处理装置1的通信部1b是在与拍摄部2和/或外部装置3之间进行信息、数据的通信的接口,包括输入输出接口和/或通信接口。通信部1b既可以理解为从拍摄部2获取由拍摄部2得到的人物的图像的获取部,也可以理解为向外部装置3输出(提供)由后述的模型运算部1d估计出的人物的视线的信息的输出部(提供部)。需要说明的是,在以下,有时将由拍摄部2得到的人物的图像记载为“拍摄图像”。
信息处理装置1的生成部1c对经由通信部1b从拍摄部2获取到的人物的拍摄图像应用公知的图像处理技术,由此从该拍摄图像获取该人物的面部(面部整体)的图像、该人物的左眼的图像以及该人物的右眼的图像。然后,根据从拍摄图像分别提取出的面部的图像、左眼的图像以及右眼的图像,生成用于输入到模型运算部1d的图像。在以下,有时将从拍摄图像提取出的图像记载为“提取图像”,有时将输入到模型运算部1d的图像记载为“输入图像”。
在本实施方式的情况下,生成部1c对左眼的提取图像和右眼的提取图像中的一方的提取图像进行镜像反转处理,由此将该一方的提取图像在左右方向镜像反转而成的反转图像输入到模型运算部1d。另一方面,对左眼的提取图像和右眼的提取图像中的另一方的提取图像不进行镜像反转处理,将在左右方向没有镜像反转的非反转图像输入到模型运算部1d。对于面部的提取图像也不进行镜像反转处理,将在左右方向没有镜像反转的非反转图像输入到模型运算部1d。在以下,说明对右眼的提取图像进行镜像反转处理的例子。需要说明的是,“左右方向”能够定义为在人物的拍摄图像中左眼和右眼排列的方向(即,以人物为基准的左右的方向)。
图2是表示拍摄图像、提取图像以及输入图像的一例的图。图2的(a)表示拍摄部2拍摄就座于车辆的驾驶座的人物(驾驶员)而得到的拍摄图像10。生成部1c经由通信部1b从拍摄部2获取图2的(a)所示的拍摄图像10,并且对该拍摄图像10应用公知的图像处理技术,由此分别提取面部的图像、左眼的图像以及右眼的图像作为提取图像。图2的(b-1)~(b-3)分别示出面部的提取图像11a、左眼的提取图像12a以及右眼的提取图像13a。另外,生成部1c对图2的(b-3)所示的右眼的提取图像13a进行镜像反转处理,由此生成如图2的(c-3)所示那样将右眼的提取图像13a在左右方向镜像反转而成的反转图像作为右眼的输入图像13b。另一方面,生成部1c对面部的提取图像11a和左眼的提取图像12a不进行镜像反转处理(例如不进行加工),生成提取图像(非反转图像)作为输入图像。也就是说,生成部1c生成如图2的(c-1)所示那样面部的提取图像11a作为面部的输入图像11b,生成如图2的(c-2)所示那样左眼的提取图像12a作为左眼的输入图像12b。
信息处理装置1的模型运算部1d进行使用了既定的学习模型(神经网络)的机器学习算法的运算,由此根据由生成部1c输入的左眼的输入图像12b以及右眼的输入图像13b分别估计(决定、计算)左眼的视线以及右眼的视线。在本实施方式中,说明学习模型(神经网络)包含例如包括一个以上卷积层、池化层以及全结合层的、被称为CNN(ConvolutionalNeural Network:卷积神经网络)的网络结构的例子,但网络结构不限于CNN,也可以是其它结构。另外,也可以是如ResNet(Residual Network:残差网络)那样还具有跳跃连接的结构。或者,也可以是例如自动编码器那样除了具有CNN结构的编码器的结构以外还具有解码器的结构。当然,不限于这些结构,如果是对图像那样的空间分布的信号使用的神经网络的结构,也可以是其它结构。
本实施方式的模型运算部1d使用共通的(相同的)学习模型,分别单独地(独立地)进行根据左眼的输入图像12b来估计左眼的视线的处理以及根据右眼的输入图像13b来估计右眼的视线的处理。共通的学习模型也可以理解为,用于根据输入图像来估计视线的学习模型的结构和函数是共通的(相同),更具体而言,也可以理解为,学习模型的系数(即,神经元间的加权系数)是共通的(相同)。能够像这样在左眼的输入图像12b和右眼的输入图像13b使用共通的学习模型是因为,如前所述,将左眼的提取图像12a和右眼的提取图像13a中的一方的提取图像(在本实施方式中,右眼的提取图像13a)在左右方向镜像反转并输入到模型运算部1d(学习模型)。并且,通过使用共通的学习模型,能够将根据一个拍摄图像10得到的两个提取图像(左眼、右眼)作为生成该学习模型时的机器学习的输入数据来使用。也就是说,在以往,根据一个拍摄图像10将左眼和右眼中的一方的提取图像作为输入数据来使用,相对于此,在本实施方式中,能够根据一个拍摄图像10将两个提取图像(左眼、右眼)作为输入数据来使用。因此,能够使机器学习的学习精度(视线的估计精度)和学习效率提高。
另外,本实施方式的模型运算部1d进行使用了既定的学习模型(神经网络)的机器学习算法的运算,由此根据由生成部1c输入的面部的输入图像11b,估计人物的面部的朝向(朝向的方向)。然后,模型运算部1d将面部的朝向的估计结果输入到用于根据各眼的输入图像12b、13b估计各眼的视线的学习模型,并变更该学习模型的系数(即,神经元间的加权系数)。由此,能够根据面部的朝向来精度良好地估计各眼的视线。在此,面部的朝向的估计结果与系数的变更的相关性能够通过机器学习来设定。另外,作为变更学习模型的系数的机构,能够应用Attention机制(注意力机制)。
接下来,说明在本实施方式的信息处理装置1中应用的学习模型。图3是用于说明由本实施方式的信息处理装置1(模型运算部1d)应用的学习模型的框图。如图3所示,本实施方式的信息处理装置1能够包括根据面部的输入图像11b估计面部的朝向的学习模型M1、根据左眼的输入图像12b估计左眼的视线的学习模型M2以及根据右眼的输入图像13b估计右眼的视线的学习模型M3。学习模型M1~M3也可以理解为一个学习模型。
向学习模型M1输入面部的输入图像11b。如前所述,输入图像11b是对面部的提取图像11a不进行镜像反转处理而得到的图像,在本实施方式中,原样应用提取图像11a。首先,学习模型M1例如通过CNN,根据面部的输入图像11b来进行与面部相关的特征量图(日文:特徴量マップ)的提取处理21。作为特征量,能列举出左眼、右眼、鼻子以及嘴的位置。然后,学习模型M1进行根据提取出的特征量图来计算面部的朝向的运算处理22。在运算处理22中计算出的表示面部的朝向的数据分别被提供给学习模型M2的注意力机制25以及学习模型M3的注意力机制29。但是,通过对运算处理22计算出的面部的朝向进行镜像反转处理23而将该面部的朝向在左右方向镜像反转而成的数据被提供给学习模型M3的注意力机制29。
向学习模型M2输入左眼的输入图像12b。如前所述,输入图像12b是对左眼的提取图像12a不进行镜像反转处理而得到的图像,在本实施方式中,原样应用提取图像12a。首先,学习模型M2例如通过CNN,根据左眼的输入图像12b来进行与眼睛相关的特征量图的提取处理24。作为一例,在提取处理24中,将为了实现CNN目的功能(在本实施方式的情况下,为估计视线方向)所需的多个特征量自动地构成为该特征量图。在提取处理24中,也可以将眼睛的大小、眼睛的宽度、眼睛的朝向、眼睛中的瞳孔(黑眼珠)的位置等追加为用于估计视线方向的辅助信息。然后,学习模型M2对于在提取处理24中提取出的特征量图,用注意力机制25对各特征量进行加权,由此生成加权特征量图,并根据该加权特征量图来进行计算视线的运算处理26。如此,在学习模型M2中进行视线的运算。信息处理装置1输出由学习模型M2计算出的视线的信息作为表示左眼的视线的估计结果的信息32(在以下,有时记载为左眼的视线估计信息)。在此,在学习模型M2中,在注意力机制25中对特征量图赋予的权重(加权系数)会基于从学习模型M1提供的数据而被变更。
向学习模型M3输入右眼的输入图像13b。如前所述,输入图像13b是对右眼的提取图像13a进行镜像反转处理27而得到的图像。学习模型M3是与学习模型M2相同的模型,具体而言,模型结构和加权系数与学习模型M2共通(相同)。首先,学习模型M3例如通过CNN,根据右眼的输入图像13b来进行与眼睛相关的特征量图的提取处理28。作为一例,在提取处理28中,将为了实现CNN目的功能(在本实施方式的情况下,为估计视线方向)所需的多个特征量自动地构成为该特征量图。在提取处理28中,也可以将眼睛的大小、眼睛的宽度、眼睛的朝向、眼睛中的瞳孔(黑眼珠)的位置等追加为用于估计视线方向的辅助信息。然后,学习模型M3对于提取出的特征量图,用注意力机制29对各特征量进行加权,由此生成加权特征量图,并根据该加权特征量图进行计算视线的运算处理30。如此,在学习模型M3中进行视线的运算。信息处理装置1对由学习模型M3计算出的视线进行镜像反转处理31,由此将该视线在左右方向镜像反转,输出镜像反转后的视线的信息作为表示右眼的视线的估计结果的信息33(在以下,有时记载为右眼的视线估计信息)。在此,在学习模型M3中,在注意力机制29中对特征量图赋予的权重(加权系数)会基于从学习模型M1提供的数据而被变更。
接下来,说明由本实施方式的信息处理装置1进行的估计处理。图4是表示由本实施方式的信息处理装置1进行的估计处理的流程图。
在步骤S11中,信息处理装置1(通信部1b)从拍摄部2获取人物的拍摄图像10。接下来,在步骤S12中,信息处理装置1(生成部1c)对在步骤S11中获取到的拍摄图像10应用公知的图像处理技术,由此从拍摄图像10提取包含人物的面部的局部图像作为提取图像11a,提取包含人物的左眼的局部图像作为提取图像12a,并且提取包含人物的右眼的局部图像作为提取图像13a。
在步骤S13中,信息处理装置1(生成部1c)根据在步骤S12中得到的提取图像11a、12a、13a,生成用于输入到学习模型M1~M3的输入图像。如前所述,信息处理装置1对左眼的提取图像12a和右眼的提取图像13a中的一方的提取图像进行镜像反转处理,生成输入图像,对另一方的提取图像不进行镜像反转处理而生成输入图像。在本实施方式的情况下,信息处理装置1对右眼的提取图像13a进行镜像反转处理,由此生成右眼的输入图像13b,对左眼的提取图像12a不进行镜像反转处理而原样使用该提取图像12a,来生成左眼的输入图像12b。另外,信息处理装置1对面部的提取图像11a也不进行镜像反转处理而原样使用该提取图像11a,来生成面部的输入图像11b。
在步骤S14中,信息处理装置1(模型运算部1d)将在步骤S13中生成的输入图像11b、12b、13b输入到学习模型M1~M3,由此单独地(独立地)运算左眼的视线以及右眼的视线。关于左眼的视线以及右眼的视线的运算方法,如使用图3所述的那样。接下来,在步骤S15中,信息处理装置1(模型运算部1d)基于在步骤S14中计算出的左眼的视线的信息以及右眼的视线的信息,对于左眼以及右眼各自,单独地(独立地)决定视线估计信息。信息处理装置1对左眼和右眼中的、在步骤S13中进行了镜像反转处理的一方的视线,进行镜像反转处理来将左右方向的反转恢复为原来的状态,由此生成该一方的视线估计信息。在本实施方式的情况下,信息处理装置1对在步骤S14中计算出的右眼的视线进行镜像反转处理,将镜像反转后的视线的信息决定为右眼的视线估计信息。另一方面,对在步骤S14中计算出的左眼的视线不进行镜像反转处理,将计算出的左眼的视线的信息原样决定为左眼的视线估计信息。接下来,在步骤S16中,信息处理装置1将在步骤S15中决定的左眼的视线估计信息以及右眼的视线估计信息输出到例如外部装置3。
接下来,说明本实施方式的信息处理装置1的学习方法。图5是表示用于生成学习模型的机器学习中的输入输出的构造的示意图。输入数据X1(41)以及输入数据X2(42)是学习模型43的输入层的数据。作为输入数据X1(41),应用面部的图像(在本实施方式中为,面部的输入图像11b)。作为输入数据X2(42),应用左眼和右眼中的一方的图像(在本实施方式中,左眼的输入图像12b)和/或进行了镜像反转处理的另一方的图像(在本实施方式中为,右眼的输入图像13b)。在本实施方式中,能够分别应用从一个拍摄图像10得到的两个图像(左眼、右眼)作为输入数据X2,即,能够根据一个拍摄图像10进行两次机器学习,因此能够使机器学习的学习精度(视线的估计精度)和学习效率提高。
将输入数据X1(41)以及输入数据X2(42)输入到学习模型M(43),由此将作为视线的运算结果的输出数据Y(44)从学习模型M(43)输出。学习模型M(43)也可以理解为包括图3的学习模型M1和M2或者图3的学习模型M1和M3。另外,在机器学习时,付与训练数据T(45)作为根据输入数据X计算出的视线的真值数据(ground-truth data),将输出数据Y(44)和训练数据T(45)付与给损失函数f(46),由此得到与视线的真值之间的偏差量L(47)。更新学习模型M(43)的系数(加权系数)等,以使相对于大量的学习数据(输入数据)而偏差量L减小,由此使该学习模型M(43)最优化。
在此,作为训练数据T(45),使用人物的视线的测量结果。例如,作为人物的视线的测量,在使该人物的视线朝向既定部位(目标部位)的状态下用拍摄部2拍摄该人物。此时的该人物的视线能够用作训练数据T,从由拍摄部2得到的拍摄图像提取的面部的图像能够用作输入数据X1(41),从该拍摄图像提取的眼睛的图像能够用作输入数据X2(42)。
图6是表示本实施方式的信息处理装置1的学习方法的流程图。
在步骤S21中,获取通过使拍摄部2拍摄人物而得到的拍摄图像和此时的该人物的视线的信息。例如,如前所述,通过在使人物的视线朝向既定部位(目标部位)的状态下使拍摄部2拍摄该人物,能够获取拍摄图像和人物的视线的信息。在本步骤S21中获取的人物的视线的信息被用作训练数据T(45)。
在步骤S22中,从在步骤S21中获取到的拍摄图像,提取人物的面部的局部图像作为输入数据X1(41),并且提取人物的眼睛的局部图像作为输入数据X2(42)。在此,作为输入数据X2(42),既可以是使提取出的人物的眼睛的局部图像在左右方向反转而得到的反转图像,也可以是使提取出的人物的眼睛的局部图像不反转而得到的非反转图像。
在步骤S23中,基于在步骤S22中作为输入数据X1(41)提取出的人物的面部的局部图像以及作为输入数据X2(42)提取出的人物的眼睛的局部图像,利用学习模型M(43)使信息处理装置1估计人物的视线。在本步骤中估计的人物的视线对应于图5的输出数据Y(44)。接下来,在步骤S24中,使信息处理装置1进行学习,以使在步骤S23中被估计为输出数据Y(44)的人物的视线与在步骤S21中被获取为训练数据T(45)的人物的视线之间的偏差量L(47)减小。
如上所述,本实施方式的信息处理装置1使用共通的学习模型来单独地进行使用使人物的左眼以及右眼中的一方的图像反转而成的反转图像来估计该一方的视线的处理(第一处理)以及使用没有使该人物的左眼和右眼中的另一方的图像反转的非反转图像来估计该另一方的视线的处理(第二处理)。由此,能够使用由一个拍摄图像10得到的两个图像(左眼、右眼)进行生成该共通的学习模型时的机器学习,因此能够使机器学习的学习精度(视线的估计精度)和学习效率提高。
另外,本实施方式的信息处理装置1利用学习模型M1来根据人物的面部的图像估计该人物的面部的朝向,根据利用学习模型M1估计出的人物的面部的朝向,变更用于根据人物的眼睛的图像估计该人物的视线的学习模型(M2和/或M3)的系数。由此,能够精度良好地估计可能根据人物的面部的朝向而变化的该人物的视线。
<其它实施方式>
另外,实现在上述实施方式中说明的一个以上功能的程序经由网络或者存储介质被提供给***或者装置,该***或者装置的计算机中的一个以上处理器能够读取并执行该程序。通过这样的方式也能够实现本发明。
<实施方式的总结>
1.上述实施方式的信息处理装置估计人物的视线,其中,
该信息处理装置(例如1)具备:
生成部件(例如1c),其生成输入到如下模型(例如M2、M3)的输入图像(例如12b、13b),所述模型构成为当输入眼睛的图像时输出视线的运算结果;以及
运算部件(例如1d),其使用所述模型共通地执行第一处理(例如M3)以及第二处理(例如M2),所述第一处理为估计所述人物的左眼和右眼中的一方的视线,所述第二处理为估计所述人物的左眼和右眼中的另一方的视线,
所述生成部件将使所述一方的图像(例如13a)反转而成的反转图像生成为在所述第一处理中输入到所述模型(例如M3)的所述输入图像(例如13b),
所述生成部件将没有使所述另一方的图像(例如12a)反转的非反转图像生成为在所述第二处理中输入到所述模型(例如M2)的所述输入图像(例如12b)。
根据该实施方式,能够使用由一个拍摄图像得到的两个图像(左眼、右眼)进行生成模型(学习模型)时的机器学习,因此能够使机器学习的学习精度(视线的估计精度)和学习效率提高。
2.在上述实施方式中,
所述运算部件在所述第一处理中,基于因所述反转图像的输入而从所述模型输出的视线信息,估计所述一方的视线(例如33),
所述运算部件在所述第二处理中,基于因所述非反转图像的输入而从所述模型输出的视线信息,估计所述另一方的视线(例如32)。
根据该实施方式,对于人物的左眼以及右眼使用共通的模型,能够精度良好地估计该人物的左眼的视线以及右眼的视线。
3.在上述实施方式中,
所述运算部件在所述第一处理中,基于使因所述反转图像的输入而从所述模型输出的视线信息反转得到的信息,估计所述一方的视线(例如33),
所述运算部件在所述第二处理中,基于使因所述非反转图像的输入而从所述模型输出的视线信息不反转得到的信息,估计所述另一方的视线(例如32)。
根据该实施方式,对于人物的左眼以及右眼使用共通的模型,能够精度良好地估计该人物的左眼的视线以及右眼的视线。
4.在上述实施方式中,
还具备获取部件(例如1b、1c),所述获取部件获取由拍摄部件(例如2)得到的所述人物的图像(例如10),
所述生成部件从由所述获取部件获取到的所述人物的图像提取所述一方的图像以及所述另一方的图像,生成所述输入图像。
根据该实施方式,能够根据由拍摄部件(摄像机)得到的一个人物的图像,精度良好地估计该人物的左眼的视线以及右眼的视线。
5.在上述实施方式中,
所述运算部件共通地使用所述模型来单独地估计所述一方的视线以及所述另一方的视线。
根据该实施方式,对于人物的左眼以及右眼中使用共通的模型,能够单独地且精度良好地估计该人物的左眼的视线以及右眼的视线。
6.在上述实施方式中,
所述运算部件还执行第三处理(例如M1),在该第三处理中,使用第二模型(例如M1)来估计所述人物的面部的朝向,所述第二模型构成为当输入所述人物的面部的图像(例如11b)时输出所述人物的面部的朝向的运算结果,
所述运算部件根据由所述第三处理估计出的面部的朝向,变更在所述第一处理以及所述第二处理中共通地使用的所述模型的系数。
根据该实施方式,能够精度良好地估计可能根据人物的面部的朝向而变化的该人物的视线。
本发明并不限于上述实施方式,能够不脱离本发明的精神和范围地进行各种各样的变更和变形。
Claims (10)
1.一种信息处理装置,用于估计人物的视线,其特征在于,具备:
生成部件,其生成输入到如下模型的输入图像,所述模型构成为当输入眼睛的图像时输出视线的运算结果;以及
运算部件,其共通地使用所述模型来执行估计所述人物的左眼和右眼中的一方的视线的处理以及估计所述人物的左眼和右眼中的另一方的视线的处理,
所述生成部件将使所述一方的图像反转而成的反转图像生成为在估计所述一方的视线的处理中输入到所述模型的所述输入图像,
所述生成部件将没有使所述另一方的图像反转的非反转图像生成为在估计所述另一方的视线的处理中输入到所述模型的所述输入图像。
2.根据权利要求1所述的信息处理装置,其特征在于,
所述运算部件在估计所述一方的视线的处理中,基于因所述反转图像的输入而从所述模型输出的视线信息,估计所述一方的视线,
所述运算部件在估计所述另一方的视线的处理中,基于因所述非反转图像的输入而从所述模型输出的视线信息,估计所述另一方的视线。
3.根据权利要求1所述的信息处理装置,其特征在于,
所述运算部件在估计所述一方的视线的处理中,基于使因所述反转图像的输入而从所述模型输出的视线信息反转得到的信息,估计所述一方的视线,
所述运算部件在估计所述另一方的视线的处理中,基于使因所述非反转图像的输入而从所述模型输出的视线信息不反转得到的信息,估计所述另一方的视线。
4.根据权利要求1所述的信息处理装置,其特征在于,
还具备获取部件,所述获取部件获取由拍摄部件得到的所述人物的图像,
所述生成部件从由所述获取部件获取到的所述人物的图像提取所述一方的图像以及所述另一方的图像,生成所述输入图像。
5.根据权利要求1所述的信息处理装置,其特征在于,
所述运算部件共通地使用所述模型来单独地估计所述一方的视线以及所述另一方的视线。
6.根据权利要求1所述的信息处理装置,其特征在于,
所述运算部件还执行第三处理,在该第三处理中,使用第二模型来估计所述人物的面部的朝向,所述第二模型构成为当输入所述人物的面部的图像时输出所述人物的面部的朝向的运算结果,
所述运算部件根据在所述第三处理中估计出的面部的朝向,变更在估计所述一方的视线的处理以及估计所述另一方的视线的处理中共通地使用的所述模型的系数。
7.一种信息处理方法,用于估计人物的视线,其特征在于,包括:
生成工序,生成输入到如下模型的输入图像,所述模型构成为当输入眼睛的图像时输出视线的运算结果;以及
运算工序,共通地使用所述模型来执行估计所述人物的左眼和右眼中的一方的视线的处理以及估计所述人物的左眼和右眼中的另一方的视线的处理,
在所述生成工序中,
将使所述一方的图像反转而成的反转图像生成为在估计所述一方的视线的处理中输入到所述模型的所述输入图像,
将没有使所述另一方的图像反转的非反转图像生成为在估计所述另一方的视线的处理中输入到所述模型的所述输入图像。
8.一种存储介质,其存储用于使计算机执行根据权利要求7所述的信息处理方法的各工序的程序。
9.一种信息处理装置的学习方法,该信息处理装置用于估计人物的视线,所述学习方法的特征在于,包括:
估计工序,基于所述人物的眼睛的图像使所述信息处理装置估计所述人物的视线;
获取工序,获取在得到所述图像时的所述人物的视线的信息作为训练数据;以及
学习工序,使所述信息处理装置进行学习,以使在所述估计工序中估计出的所述人物的视线与作为所述训练数据的在所述获取工序中获取到的所述人物的视线之间的偏差量减小,
在所述估计工序中,作为所述人物的眼睛的图像,使用使所述人物的左眼和右眼中的一方的图像反转而成的反转图像以及没有使所述人物的左眼和右眼中的另一方的图像反转的非反转图像。
10.一种存储介质,其存储用于使计算机执行根据权利要求9所述的学习方法的各工序的程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021066696A JP7219787B2 (ja) | 2021-04-09 | 2021-04-09 | 情報処理装置、情報処理方法、学習方法、およびプログラム |
JP2021-066696 | 2021-04-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115191928A true CN115191928A (zh) | 2022-10-18 |
Family
ID=83510837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210251428.8A Pending CN115191928A (zh) | 2021-04-09 | 2022-03-15 | 信息处理装置、信息处理方法、学习方法以及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220327728A1 (zh) |
JP (1) | JP7219787B2 (zh) |
CN (1) | CN115191928A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7219788B2 (ja) * | 2021-04-09 | 2023-02-08 | 本田技研工業株式会社 | 情報処理装置、情報処理方法、学習方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102591552B1 (ko) * | 2015-08-21 | 2023-10-18 | 매직 립, 인코포레이티드 | 눈 포즈 측정을 사용한 눈꺼풀 형상 추정 |
US10671890B2 (en) * | 2018-03-30 | 2020-06-02 | Tobii Ab | Training of a neural network for three dimensional (3D) gaze prediction |
US11024002B2 (en) * | 2019-03-14 | 2021-06-01 | Intel Corporation | Generating gaze corrected images using bidirectionally trained network |
CN110058694B (zh) * | 2019-04-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 视线追踪模型训练的方法、视线追踪的方法及装置 |
US11301677B2 (en) * | 2019-06-14 | 2022-04-12 | Tobil AB | Deep learning for three dimensional (3D) gaze prediction |
-
2021
- 2021-04-09 JP JP2021066696A patent/JP7219787B2/ja active Active
-
2022
- 2022-03-15 CN CN202210251428.8A patent/CN115191928A/zh active Pending
- 2022-04-03 US US17/712,153 patent/US20220327728A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022161689A (ja) | 2022-10-21 |
US20220327728A1 (en) | 2022-10-13 |
JP7219787B2 (ja) | 2023-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101169533B1 (ko) | 얼굴 자세 추정 장치, 얼굴 자세 추정 방법 및 얼굴 자세 추정 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 | |
CN107330439A (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
JP2019028843A (ja) | 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法 | |
US11494975B2 (en) | Method for analyzing three-dimensional model and device for analyzing three-dimensional model | |
EP4012653A1 (en) | Depth-map prediction method; computer program, readable medium, system and mobile machine for implementing the method | |
CN112132925A (zh) | 用于重建水下图像颜色的方法和装置 | |
CN111680573B (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
WO2018168038A1 (ja) | 運転者の着座判定装置 | |
CN115191928A (zh) | 信息处理装置、信息处理方法、学习方法以及存储介质 | |
JP7403995B2 (ja) | 情報処理装置、制御方法およびプログラム | |
JP5062531B2 (ja) | 画像処理装置および画像処理方法 | |
WO2020085028A1 (ja) | 画像認識装置および画像認識方法 | |
JP2021051347A (ja) | 距離画像生成装置及び距離画像生成方法 | |
JP6395429B2 (ja) | 画像処理装置、その制御方法及び記憶媒体 | |
CN113139567A (zh) | 信息处理装置及其控制方法、车辆、记录介质、信息处理服务器、信息处理方法 | |
CN115205829A (zh) | 信息处理装置、信息处理方法、学习方法以及存储介质 | |
US11915487B2 (en) | System and method for self-supervised depth and ego-motion overfitting | |
CN111762155B (zh) | 车用测距***及方法 | |
US20220270351A1 (en) | Image recognition evaluation program, image recognition evaluation method, evaluation apparatus, and evaluation system | |
JP7437918B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN115082978A (zh) | 面部姿态的检测装置、方法、图像处理***及存储介质 | |
US11398043B2 (en) | System and method for self-supervised monocular depth regularization from surface normals | |
WO2024009377A1 (ja) | 情報処理装置、自己位置推定方法、及び非一時的なコンピュータ可読媒体 | |
JP7391784B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2022244333A1 (ja) | 物体認識装置、および、物体認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |