CN111439267A - 一种舱内环境的调整方法及装置 - Google Patents
一种舱内环境的调整方法及装置 Download PDFInfo
- Publication number
- CN111439267A CN111439267A CN202010237887.1A CN202010237887A CN111439267A CN 111439267 A CN111439267 A CN 111439267A CN 202010237887 A CN202010237887 A CN 202010237887A CN 111439267 A CN111439267 A CN 111439267A
- Authority
- CN
- China
- Prior art keywords
- age
- sample image
- value
- image
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 230000008451 emotion Effects 0.000 claims abstract description 39
- 230000014509 gene expression Effects 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 127
- 239000013598 vector Substances 0.000 claims description 53
- 230000009471 action Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 46
- 210000000056 organ Anatomy 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 28
- 230000007613 environmental effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000630 rising effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 7
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000003750 conditioning effect Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 description 64
- 238000001514 detection method Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000283899 Gazella Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0004—In digital systems, e.g. discrete-time systems involving sampling
- B60W2050/0005—Processor details or data handling, e.g. memory registers or chip architecture
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Ophthalmology & Optometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种舱内环境的调整方法及装置,包括:获取舱内人员的人脸图像;基于人脸图像,对所述舱内人员进行属性识别和表情识别,确定所述舱内人员的属性信息和情绪信息;基于所述舱内人员的属性信息和情绪信息,调整舱内的环境设置。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种舱内环境的调整方法及装置。
背景技术
相关技术中,在设置舱内的环境时,例如调整舱内温度、调整舱内播放的音乐时,一般是通过用户去手动调整,随着人脸识别技术的发展,可以预先为每一个用户设置对应的环境信息,在用户上车之后,通过人脸识别技术识别用户身份,然后在识别出用户的身份之后,获取与该身份对应的环境信息,然后进行舱内环境的设置。
发明内容
本公开实施例至少提供一种舱内环境的调整方法及装置。
第一方面,本公开实施例提供了一种舱内舱内环境的调整方法,包括:
获取舱内人员的人脸图像;
基于人脸图像,确定所述舱内人员的属性信息和状态信息;
基于所述舱内人员的属性信息和状态信息,调整舱内环境。
上述方法中,可以实时的获取舱内人员的人脸图像,并根据人脸图像,确定舱内人员的属性信息和状态信息,然后基于舱内人员的属性信息和状态信息,调整舱内的环境设置。通过这种方法,由于人脸图像是实时获取的,因此所确定出的舱内人员的属性信息和状态信息就可以代表舱内人员当前的状态,根据舱内人员当前的状态调整舱内的环境设置,可以自动对于舱内环境设置进行动态调整。
一种可能的实施方式中,所述属性信息包括年龄信息的情况,所述年龄信息通过第一神经网络识别得到;
根据以下方法训练得到所述第一神经网络:
通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测,得到所述样本图像对应的预测年龄值;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
通过这种方法训练出的第一神经网络,其监督数据除了预测年龄值和年龄标签的年龄之差外,将样本图像集合中样本图像的预测年龄值之差和年龄标签的年龄值之差也作为监督数据,由此训练出的第一神经网络,在进行年龄识别时精度更高。
一种可能的实施方式中,所述样本图像集合为多个,基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
一种可能的实施方式中,所述样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
增强样本图像为将初始样本图像增加角度和光线的影响下的样本图像,通过初始样本图像和增强样本图像所训练出的神经网络,在进行年龄识别时,可以避免角度和光线对于神经网络识别精度的影响,提高了年龄识别的精度。
一种可能的实施方式中,所述样本图像集合为多个,每个样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像,同一样本图像集合中的初始样本图像为通过同一图像采集设备采集得到;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,并基于计算出的损失值,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
这里,同一个样本图像集合中的初始样本图像是通过同一图像采集设备采集得到的,因此在通过样本图像训练神经网络时,可以避免图像采集设备的不同,所带来的误差影响;同时又利用初始样本图像和增强样本图像训练神经网络,由此又可以避免光线和角度所带来的误差影响,因此训练出的神经网络精度更高。
一种可能的实施方式中,所述基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,包括:
根据每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,计算第一损失值;以及,
根据初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算第二损失值;
将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
一种可能的实施方式中,根据以下方法确定初始样本图像对应的增强样本图像:
生成所述初始样本图像中人脸区域图像对应的三维人脸模型;
将所述三维人脸模型进行不同角度的旋转,得到不同角度下的第一增强样本图像;以及,
将所述初始样本图像中每个像素点在RGB通道上的取值,与不同的光线影响值相加,得到在不同光线影响值下的第二增强样本图像;
所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。
一种可能的实施方式中,所述属性信息包括性别信息,根据以下方法确定所述舱内人员的性别信息:
将所述人脸图像输入用于进行性别信息提取的第二神经网络中,输出得到二维特征向量,所述二维特征向量中第一维度上的元素值表示输入的人脸图像为男性的概率,第二维度上的元素值表示输入的人脸图像为女性的概率;
将所述二维特征向量输入至分类器中,将对应的概率大于设定阈值的性别确定为输入的所述人脸图像的性别。
一种可能的实施方式中,根据以下方法确定所述设定阈值:
获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像,以及每张样本图像对应的性别标签;
将多张样本图像输入至所述第二神经网络中,得到每张样本图像分别在多个候选阈值中每一个候选阈值下对应的预测性别;
针对每一个候选阈值,根据该候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率;
将对应的预测准确率最大的候选阈值确定为所述设定阈值。
由于在确定设定阈值时,所采集的样本图像为采集人脸图像的图像采集设备在舱内采集的,由此可以保证采集设备和采集环境对于设定阈值的影响,且在确定设定阈值时,是将预测准确率最大的候选阈值作为设定阈值,由此可以做到自适应调节设定阈值,从而提高性别识别的精度。
一种可能的实施方式中,根据以下方法确定所述多个候选阈值:
按照设定步长,从预设取值范围内选取多个所述候选阈值。
一种可能的实施方式中,在所述状态信息包括睁闭眼信息,根据以下方法确定所述舱内人员的睁闭眼信息:
对所述人脸图像进行特征提取,得到多维特征向量,所述多维特征向量中每个维度上的元素值表示所述人脸图像中的眼睛处于该维度对应的状态的概率;
将对应的概率值大于预设值的维度所对应的状态,确定为所述舱内人员的睁闭眼信息。
通过这种方式,在确定舱内人员的睁闭眼信息时,无需对人脸图像进行分割,直接通过人脸图像便可确定人脸图像中的睁闭眼信息,提高了睁闭眼信息检测的效率。
一种可能的实施方式中,眼睛的状态包括以下状态中的任意一种:
人眼不可见、人眼可见且睁眼、人眼可见且闭眼。
一种可能的实施方式中,所述状态信息包括情绪信息,根据以下步骤确定舱内人员的情绪信息:
根据所述人脸图像,识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作;
基于识别到的所述每个器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系,确定所述舱内人员的情绪信息。
一种可能的实施方式中,人脸上的器官的动作包括以下动作中的至少两种:
皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴。
一种可能的实施方式中,根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作是由第三神经网络执行的,所述第三神经网络包括主干网络和至少两个分类分支网络,每个分类分支网络用于识别人脸上的一个器官的一种动作;
根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作,包括:
利用主干网络对所述人脸图像进行特征提取,得到所述人脸图像的特征图;
分别利用每个分类分支网络根据所述人脸图像的特征图进行动作识别,得到每个分类分支网络能够识别的动作的发生概率;
将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。
基于这种方式,不需要用户针对人脸图像进行表情状态的主观定义,另外,由于人脸上的器官的动作可以专注于某些特定的人脸特征,对人脸图像进行器官的动作的识别,相比直接进行表情姿态的识别,准确性可以提升许多。
一种可能的实施方式中,所述调整舱内的环境设置,包括以下类型的调整中的至少一种:
调整音乐类型;调整温度;调整灯光类型;调整气味。
第二方面,本公开实施例还提供一种舱内环境的调整装置,包括:
获取模块,用于获取舱内人员的人脸图像;
确定模块,用于基于人脸图像,确定所述舱内人员的属性信息和状态信息;
调整模块,用于基于所述舱内人员的属性信息和状态信息,调整舱内环境。
一种可能的实施方式中,所述属性信息包括年龄信息的情况,所述年龄信息通过第一神经网络识别得到;
所述装置还包括训练模块,所述训练模块,用于根据以下方法训练得到所述第一神经网络:
通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测,得到所述样本图像对应的预测年龄值;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
一种可能的实施方式中,所述样本图像集合为多个,所述训练模块,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
一种可能的实施方式中,所述样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像;
所述训练模块,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
一种可能的实施方式中,所述样本图像集合为多个,每个样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像,同一样本图像集合中的初始样本图像为通过同一图像采集设备采集得到;
所述训练模块,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,并基于计算出的损失值,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
一种可能的实施方式中,所述训练模块,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值时,用于:
根据每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,计算第一损失值;以及,
根据初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算第二损失值;
将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
一种可能的实施方式中,所述训练模块,还用于根据以下方法确定初始样本图像对应的增强样本图像:
生成所述初始样本图像中人脸区域图像对应的三维人脸模型;
将所述三维人脸模型进行不同角度的旋转,得到不同角度下的第一增强样本图像;以及,
将所述初始样本图像中每个像素点在RGB通道上的取值,与不同的光线影响值相加,得到在不同光线影响值下的第二增强样本图像;
所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。
一种可能的实施方式中,所述属性信息包括性别信息,所述确定模块,用于根据以下方法确定所述舱内人员的性别信息:
将所述人脸图像输入用于进行性别信息提取的第二神经网络中,输出得到二维特征向量,所述二维特征向量中第一维度上的元素值表示输入的人脸图像为男性的概率,第二维度上的元素值表示输入的人脸图像为女性的概率;
将所述二维特征向量输入至分类器中,将对应的概率大于设定阈值的性别确定为输入的所述人脸图像的性别。
一种可能的实施方式中,所述确定模块,还用于根据以下方法确定所述设定阈值:
获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像,以及每张样本图像对应的性别标签;
将多张样本图像输入至所述第二神经网络中,得到每张样本图像分别在多个候选阈值中每一个候选阈值下对应的预测性别;
针对每一个候选阈值,根据该候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率;
将对应的预测准确率最大的候选阈值确定为所述设定阈值。
一种可能的实施方式中,所述确定模块,还用于根据以下方法确定所述多个候选阈值:
按照设定步长,从预设取值范围内选取多个所述候选阈值。
一种可能的实施方式中,在所述状态信息包括睁闭眼信息,所述确定模块,用于根据以下方法确定所述舱内人员的睁闭眼信息:
对所述人脸图像进行特征提取,得到多维特征向量,所述多维特征向量中每个维度上的元素值表示所述人脸图像中的眼睛处于该维度对应的状态的概率;
将对应的概率值大于预设值的维度所对应的状态,确定为所述舱内人员的睁闭眼信息。
一种可能的实施方式中,眼睛的状态包括以下状态中的任意一种:
人眼不可见、人眼可见且睁眼、人眼可见且闭眼。
一种可能的实施方式中,所述状态信息包括情绪信息,所述确定模块,用于根据以下步骤确定舱内人员的情绪信息:
根据所述人脸图像,识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作;
基于识别到的所述每个器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系,确定所述舱内人员的情绪信息。
一种可能的实施方式中,人脸上的器官的动作包括以下动作中的至少两种:
皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴。
一种可能的实施方式中,根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作是由第三神经网络执行的,所述第三神经网络包括主干网络和至少两个分类分支网络,每个分类分支网络用于识别人脸上的一个器官的一种动作;
所述确定模块,在根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作时,用于:
利用主干网络对所述人脸图像进行特征提取,得到所述人脸图像的特征图;
分别利用每个分类分支网络根据所述人脸图像的特征图进行动作识别,得到每个分类分支网络能够识别的动作的发生概率;
将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。
一种可能的实施方式中,所述调整舱内的环境设置,包括以下类型的调整中的至少一种:
调整音乐类型;调整温度;调整灯光类型;调整气味。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述舱内环境的调整装置、电子设备、及计算机可读存储介质的效果描述参见上述舱内环境的调整方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种舱内环境的调整方法的流程示意图;
图2示出了本公开实施例所提供的一种第一神经网络训练方法的流程示意图;
图3示出了本公开实施例所提供的一种增强样本图像确定方法的流程示意图;
图4示出了本公开实施例所提供的一种舱内人员性别信息确定方法的流程示意图;
图5示出了本公开实施例所提供的一种设定阈值确定方法的流程示意图;
图6示出了本公开实施例所提供的一种舱内人员睁闭眼信息确定方法的流程示意图;
图7示出了本公开实施例所提供的一种属性信息确定方法的流程示意图;
图8示出了本公开实施例所提供的一种信息提取神经网络的网络结构示意图;
图9示出了本公开实施例所提供的一种舱内人员情绪信息确定方法的流程示意图;
图10示出了本公开实施例所提供的一种舱内环境的调整装置的架构示意图;
图11示出了本公开实施例所提供的一种电子设备1100的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,在对车舱内的环境设置进行调整时,一种是通过手动去进行调整,另一种是预先设置好每个用户对应的环境设置信息,然后识别舱内的乘客的身份信息,再基于识别出的身份信息,按照该身份信息对应的环境设置信息,去调整环境设置;若舱内的乘客并未预先设置对应的环境设置信息,或者舱内乘客并不想按照预先设置好的环境设置信息进行舱内环境的设置,这就仍需乘客去手动调整舱内环境设置。
基于此,本公开提供了一种舱内环境的调整方法,可以实时的获取舱内人员的人脸图像,并根据人脸图像,确定舱内人员的属性信息和情绪信息,然后基于舱内人员的属性信息和情绪信息,调整舱内的环境设置。通过这种方法,由于人脸图像是实时获取的,因此所确定出的舱内人员的属性信息和情绪信息就可以代表舱内人员当前的状态,根据舱内人员当前的状态调整舱内的环境设置,可以自动对于舱内环境设置进行动态调整。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种舱内环境的调整方法进行详细介绍,本公开实施例所提供的舱内环境的调整方法的执行主体一般为具有一定计算能力的电子设备。所述舱内可以包括但不仅限于汽车车舱、火车车舱、船舱等,对于其他可调整环境的设备,本公开所提供的方法均适用。
参见图1所示,为本公开实施例提供的一种舱内环境的调整方法的流程示意图,包括以下几个步骤:
步骤101、获取舱内人员的人脸图像。
步骤102、基于人脸图像,确定所述舱内人员的属性信息和状态信息。
步骤103、基于所述舱内人员的属性信息和状态信息,调整舱内的环境设置。
通过上述方法,可以实时的获取舱内人员的人脸图像,并根据人脸图像,确定舱内人员的属性信息和情绪信息,然后基于舱内人员的属性信息和情绪信息,调整舱内的环境设置。通过这种方法,由于人脸图像是实时获取的,因此所确定出的舱内人员的属性信息和情绪信息就可以代表舱内人员当前的状态,根据舱内人员当前的状态调整舱内的环境设置,可以自动对于舱内环境设置进行动态调整。
以下是对上述步骤101~步骤103的详细说明。
针对步骤101、
其中,舱内人员的人脸图像可以是包括舱内人员完整人脸的图像。在获取舱内人员的人脸图像时,可以先获取采集的待检测图像,然后基于训练的用于进行人脸检测的人脸检测神经网络,确定待检测图像中的人脸区域信息,最后基于人脸区域信息,确定人脸图像。
待检测图像可以是实时采集、并实时获取的,具体实施中,可以通过安装在舱内的摄像头实时拍摄待检测图像。
待检测图像中的人脸区域信息包括人脸区域对应的检测框的中心点坐标和该检测框的尺寸信息。在基于人脸区域信息,确定人脸图像时,可以先将检测框的尺寸信息按照预设比例进行放大处理,得到放大后的尺寸信息,然后基于中心点坐标信息和放大后的尺寸信息,从待检测图像中截取人脸图像。
通过人脸检测神经网络输出的检测框所对应的区域中可能并未包含所有的舱内人员的人脸信息,因此,可以对检测框进行放大处理,以使得获得的人脸图像中包括所有的人脸信息。
具体的,尺寸信息中可以包括检测框的长和检测框的宽,在将检测框的尺寸信息按照预设比例进行放大处理时,可以是分别将检测框的长和检测框的宽按照其对应的预设比例进行放大处理,检测框的长所对应的预设比例和检测框的宽对应的预设比例可以相同。
示例性的,若检测框的长和检测框的宽对应的预设比例均为10%,检测框的长为a,宽为b,则经过放大处理后,检测宽的长为1.1a,检测框的宽为1.1b。
在基于中心点坐标信息和放大后的尺寸信息,从待检测图像中截取人脸图像时,可以以中心点坐标信息对应的点作为对角线的交点,然后分别以放大后的尺寸信息中的长和宽作为检测框的长和宽,确定检测框在待检测图像中的位置,最后以检测框为分割线,从待检测图像中截取图像,截取出的图像即为人脸图像。
人脸检测神经网络在训练时,其样本数据可以是样本图像,每一个样本图像有对应的标签数据,样本图像对应的标签数据包括样本图像中的中心点坐标信息和检测框对应的尺寸信息,在将各样本图像输入至人脸检测神经网络之后,人脸检测神经网络可以得到预测的中心点坐标信息和预测的检测框的尺寸信息,然后基于预测的中心点坐标信息、预测的检测框的尺寸信息、样本图片对应的标签数据,确定本次训练过程中的损失值,并在损失值不满足预设条件的情况下,调整本次训练过程中人脸检测神经网络的网络参数值。
针对步骤102、
舱内人员的属性信息可以包括以下信息中的多种:年龄信息;性别信息;种族信息,。舱内人员的状态信息可以包括舱内人员的情绪信息和睁闭眼信息,其中,睁闭眼信息可以用来检测舱内人员是否处于睡眠状态,情绪信息具体可以是以下表情中的任意一种:生气、忧愁、平静、开心、沮丧等。
具体实施中,可以基于人脸图像,对舱内人员进行属性识别,确定舱内人员的属性信息,以及,基于人脸图像,对舱内人员进行表情识别和/或睁闭眼识别,确定舱内人员的状态信息。
在一种可能的实施方式中,在属性信息包括年龄信息的情况下,可以通过第一神经网络识别得到年龄信息。
其中,第一神经网络在训练时,可以根据如图2所示的方法,具体包括以下几个步骤:
步骤201、通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测,得到所述样本图像对应的预测年龄值。
步骤202、基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
具体的,可以根据样本图像集合的不同,在调整第一神经网络的网络参数时,可以分为以下几种情况:
情况一、样本图像集合为多个。
在这种情况下,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,可以基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
具体的,可以通过如下公式计算训练过程中的模型损失值:
其中,Ageloss表示本次训练过程中的损失值,N表示样本图像的个数,predictn表示第n个样本图像的预测年龄值,gtn表示第n个样本图像的年龄标签的年龄值,i遍历从0到N-1,j遍历从0到N-1,i和j不相等。
在通过上述公式计算出损失值之后,可以根据计算出的损失值去调整第一神经网络的网络参数值。
通过这种方法训练出的第一神经网络,其监督数据除了预测年龄值和年龄标签的年龄之差外,将样本图像集合中样本图像的预测年龄值之差和年龄标签的年龄值之差也作为监督数据,由此训练出的第一神经网络,在进行年龄识别时精度更高。
情况二、样本图像集合中包括多个初始样本图像,以及每一个样本图像对应的增强样本图像,其中,增强样本图像为将初始样本图像进行信息变换处理后的图像。
在确定初始样本图像对应的增强样本图像时,可以通过如图3所示的方法,包括以下几个步骤:
步骤301、生成所述初始样本图像中人脸区域图像对应的三维人脸模型。
步骤302、将所述三维人脸模型进行不同角度的旋转,得到不同角度下的第一增强样本图像;以及,将所述初始样本图像中每个像素点在RGB通道上的取值,与不同的光线影响值相加,得到在不同光线影响值下的第二增强样本图像。
需要说明的是,第一增强样本图像和第二增强样本图像均为初始样本图像对应的增强样本图像。
在确定第二增强样本图像时,初始样本图像中每个像素点在RGB三通道上的取值包括三个值,在确定在光线影响值下的第二增强图像时,可以将初始样本图像中所有像素点在三通道上的取值均与N相加,N为光线影响值,其数值上为三维向量。在一种可能的情况下,N可以遵从高斯分布。
在这种情况下,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,可以基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,调整第一神经网络的网络参数值。
具体的,可以根据以下公式计算第一神经网络训练过程中的损失值:
其中,Ageloss表示本次训练过程中的损失值,N表示样本图像的个数,predictn表示第n个样本图像的预测年龄值,gtn表示第n个样本图像的年龄标签的年龄值,predict_augn表示第n个样本图像对应的增强样本图像的预测年龄值。
增强样本图像为将初始样本图像增加角度和光线的影响下的样本图像,通过初始样本图像和增强样本图像所训练出的神经网络,在进行年龄识别时,可以避免角度和光线对于神经网络识别精度的影响,提高了年龄识别的精度。
情况三、样本图像集合为多个,每个样本图像集合中包括初始样本图像,以及每一个初始样本图像对应的增强样本图像,同一样本图像集合中的初始样本图像为通过同一图像采集设备采集得到的。
在这种情况下,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,可以基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,并基于计算出的损失值,调整第一神经网络的网络参数值。
具体的,可以根据每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,计算第一损失值;以及,根据初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算第二损失值;然后将将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
具体实施中,可以通过如下公式计算第一神经网络训练过程中的第一损失值:
Ageloss1表示第一损失值,M表示样本图像集合的个数,N表示每个样本图像中所包含的样本图像的个数,predictmn表示第m个样本集合中的第n个样本图像的预测年龄值,gtmn表示第m个样本集合中的第n个样本图像的年龄标签的年龄值。
通过如下公式计算第一神经网络训练过程中的第二损失值:
Ageloss2表示第二损失值,predictmn表示第m个样本集合中的第n个样本图像的预测年龄值,predict_augmn表示第m个样本图像集合中n个样本图像对应的增强样本图像的预测年龄值。
这里,需要说明的是,每个样本图像集合中所包含的样本图像的个数还可以大于N,但是在第一神经网络的训练过程中,从每个样本图像集合中随机抽取N个样本图像。
在一种可能的实施方式中,第一神经网络的网络结构可以包括特征提取层和年龄信息提取层,在将人脸图像输入至特征提取层之后,可以得到人脸图像对应的特征图,然后再将特征图输入至年龄信息提取层,输出得到人脸图像的预测年龄值。
这里,同一个样本图像集合中的初始样本图像是通过同一图像采集设备采集得到的,因此在通过样本图像训练神经网络时,可以避免图像采集设备的不同,所带来的误差影响;同时又利用初始样本图像和增强样本图像训练神经网络,由此又可以避免光线和角度所带来的误差影响,因此训练出的神经网络精度更高。
在属性信息包括性别信息的情况下,在确定舱内人员的性别信息时,可以参照如图4所述的方法,包括以下几个步骤:
步骤401、将所述人脸图像输入用于进行性别信息提取的第二神经网络中,输出得到二维特征向量,所述二维特征向量中第一维度上的元素值表示输入的人脸图像为男性的概率,第二维度上的元素值表示输入的人脸图像为女性的概率。
步骤402、将所述二维特征向量输入至分类器中,将对应的概率大于设定阈值的性别确定为输入的所述人脸图像的性别。
其中,设定的阈值可以根据采集人脸图像的图像采集设备和采集环境确定。
其中,由于不同的图像采集设备和采集环境的影响,设定阈值对于不同的图像采集设备和采集环境下的采集的人脸图像的识别准确率可能不同,因此,为避免图像采集设备和采集环境的影响,本公开提供了一种自适应确定设定阈值的方法。
具体的,可以参照图5所述的设定阈值的确定方法,包括以下几个步骤:
步骤501、获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像,以及每张样本图像对应的性别标签。
由于样本图像与人脸图像的图像采集设备和采集环境相同,因此,通过这些样本图像所确定的设定阈值可以满足当前环境的需求。
步骤502、将多张样本图像输入至所述第二神经网络中,得到每张样本图像分别在多个候选阈值中每一个候选阈值下对应的预测性别。
在一种可能的实施方式中,第二神经网络的网络结构可以包括特征提取层和性别信息提取层,在将样本图像输入至第二神经网络之后,可以先将样本图像输入至特征提取层,得到样本图像对应的特征图,再将特征图输入至性别信息提取层,输出得到二维特征向量,再通过分类器去确定样本图像对应的预测性别。
具体的,在确定候选阈值时,可以按照设定步骤,从预设取值范围内选取多个候选阈值。实际应用中,由于第二神经网络所输出的二维向量中不同维度上的值表示的是概率值,因此,预设取值范围可以是0到1,设定步长例如可以为0.001,示例性的可以通过如下公式确定候选阈值:
thrd=0+0.001k
其中,thrd表示候选阈值,k取遍0~1000中的每一个正整数。
步骤503、针对每一个候选阈值,根据该候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率。
具体在根据候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率时,可以通过如下方法确定:
确定P张样本图像中,以下分类中每一类的取值,如下表1所示:
表1
其中,TP表示性别标签为男性且在thrd阈值下预测性别为男性的数量,TN表示性别标签为男性且在thrd阈值下预测性别为女性的数量,FP表示性别标签为女性且在thrd阈值下预测性别为男性的数量,FN表示性别标签为女性且在thrd阈值下预测性别为女性的数量。
在确定上表1中每一类的取值之后,可以通过如下公式计算准确率:
步骤504、将对应的预测准确率最大的候选阈值确定为所述设定阈值。
在状态信息包括睁闭眼信息的情况下,可以根据如图6所示的方法确定舱内人员的睁闭眼信息,包括以下几个步骤:
步骤601、对所述人脸图像进行特征提取,得到多维特征向量,所述多维特征向量中每个维度上的元素值表示所述人脸图像中的眼睛处于该维度对应的状态的概率。
具体的,可以将人脸图像输入至预先训练好的用于进行睁闭眼信息检测的第四神经网络中,第四神经网络可以包括特征提取层和睁闭眼信息提取层,在将人脸图像输入至第四神经网络之后,可以是将人脸图像输入至特征提取层,输出得到人脸图像对应的特征图,然后将人脸图像对应的特征图输入至睁闭眼信息提取层,输出得到多维特征向量。
眼睛的状态可以包括以下状态中的任意一种:
人眼不可见、人眼可见且睁眼、人眼可见且闭眼。
在一种可能的实施方式中,左眼状态可能是以上状态中的任意一种,右眼状态也可以是以上状态中的任意一种,则两只眼睛可能的状态有9种,因此,第三神经网络的输出可以为九维特征向量,九维特征向量中每个维度上的元素值表示人脸图像中的两只眼睛处于该维度对应的两只眼睛的状态的概率。
步骤602、将对应的概率值大于预设值的维度所对应的状态,确定为所述舱内人员的睁闭眼信息。
在属性信息包括种族信息的情况下,可以将人脸图像输入用于进行种族信息提取的第五神经网络中,第五神经网络包括特征提取层和种族信息提取层,在将人脸图像输入第五神经网络中之后,可以是先将人脸图像输入至特征提取层,得到人脸图像对应的特征图,然后将特征图输入至种族信息提取层,得到三维特征向量,三维特征向量中不同维度上的元素值分别表示输入的人脸图像为改维度对应的种族的概率,所述种族包括“黄种人”、“白种人”、以及“黑种人”。
由以上内容可知,用于进行年龄信息提取的第一神经网络、用于进行性别信息提取的第二神经网络、用于进行睁闭眼信息提取的第四神经网络、以及用于进行种族信息提取的第五神经网络中,均包括特征提取层,因此,这五个神经网络可以共用特征提取层。
示例性的,可以参照图7所示,图7为本公开实施例提供的一种属性信息确定的方法,包括以下几个步骤:
步骤701、将所述人脸图像输入至用于进行属性识别的第二神经网络中的特征提取层,得到所述人脸图像对应的特征图。
其中,特征提取层用于对输入的人脸特征进行特征提取,示例性的,特征提取层可以采用inception网络、轻量化网络mobilenet-v2等。
步骤702、将所述特征图分别输入至信息提取神经网络的各个属性信息提取层,得到每个属性信息提取层输出的属性信息,其中,不同属性信息提取层用于检测不同的属性信息。
具体实施中,信息提取神经网络中的每个属性信息提取层均包括第一全连接层和第二全连接层,在将特征图输入至信息提取神经网络的属性信息提取层之后,相当于先将特征图输入属性信息提取层的第一全连接层,得到特征图对应的M维向量;M为与任一属性信息对应的预设正整数,然后将M维向量输入至该属性信息提取层的第二全连接层,得到特征图对应的N维向量,其中N为正整数,且M大于N,N为改属性信息提取层所对应的属性信息的取值个数,最后基于得到的N维向量,确定与该N维向量对应的属性信息。
其中,N为该属性信息提取层所对应的取值个数,示例性的可以理解如,若属性信息提取层提取的属性信息为性别,则该属性信息的取值包括“男”和“女”两个,则该属性信息提取层所对应的N的取值为2。
下面将以属性信息包括年龄信息、性别信息、种族信息为例,对上述信息提取神经网络的结构做出说明,信息提取神经网络的网络结构可以如图8所示。
在将人脸图像输入至特征提取层之后,可以得到人脸图像对应的特征图,然后将特征图分别输入年龄信息提取层、性别信息提取层、种族信息提取层、以及睁闭眼信息提取层。
年龄信息提取层中包括第一全连接层和第二全连接层,在将特征图输入至第一全连接层之后,可以得到K1维的特征向量,然后将K1维的特征向量输入至第二全连接层,得到一维向量输出,该一维向量中的元素值即为预测的年龄的取值。另外考虑到年龄的取值应为整数,则可以对该一维向量中的元素值进行四舍五入的取值,最终得到预测的年龄信息,其中,K1大于1。
性别信息提取层中包括第一全连接层和第二全连接层,在将特征图输入至第一全连接层之后,可以得到K2维的特征向量,然后将K2维的特征向量输入至第二全连接层,得到二维向量输出,该二维向量中的元素值表示分别对于输入的人脸图像中用户为男性的概率和女性的概率,最后,在第二全连接层的输出可以接一个二分类网络,根据二分类结果确定性别信息提取层预测的输入的人脸图像的性别信息,其中,K2大于2。
种族信息提取层中,在将特征图输入至可以得到K3维的特征向量,然后将K3维的特征向量输入至第二全连接层,得到三维向量输出,该三维向量中的元素值表示分别对于输入的人脸图像中用户为“黄种人”的概率、“黑种人”的概率以及“白种人”的概率,最后,在第二全连接层的输出可以接一个分类网络,根据分类网络的分类结果确定种族信息提取层预测的输入的人脸图像的种族信息,其中,K3大于3。
另外,状态信息中的睁闭眼信息也可以利用上述的信息提取神经网络提取,对于睁闭眼信息提取层,所提取的为舱内人员的两只眼睛的状态,其中,眼睛的状态包括“人眼不可见”(人眼不可见即为在图片中无法检测出眼睛,例如舱内人员戴墨镜)、“人眼可见且睁眼”、以及“人眼可见且闭眼”三种,因此对于两只眼睛来说,共有9种可选的状态。因此,对于睁闭眼信息提取层来说,第一全连接层的输出是K4维的特征向量,第二全连接层的输出是九维的特征向量,向量中每个元素值表示输入的人脸图像中的舱内人员的眼睛状态为该元素值表示的状态的概率,在第二全连接层的输出接一个分类网络,可以根据分类网络的分类结果确定睁闭眼信息提取层预测的输入的人脸图像的睁闭眼信息,其中,K4大于9。
信息提取神经网络在训练时,可以通过带有属性信息标签的样本图像进行训练,各个属性信息提取层一起训练,在计算损失值时,分别计算每个属性信息提取层的损失值,然后根据各个属性信息提取层的损失值去调整对应的属性信息提取层的网络参数值,将各个属性信息提取层的损失值进行求和运算,作为总损失值,然后根据总损失值,调整特征提取层的网络参数值,具体的信息提取神经网络的训练过程在此将不再展开介绍。
在一种可能的实施方式中,在确定舱内人员的情绪信息时,可以根据如图9所述的方法,包括以下几个步骤:
步骤901、根据所述人脸图像,识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作。
步骤902、基于识别到的所述每个器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系,确定所述舱内人员的情绪信息。
在识别人脸图像代表的人脸上的至少两个器官中每个器官的动作时,可以通过第三神经网络对人脸图像进行识别,第三神经网络包括主干网络和至少两个分类分支网络,每个分类分支网络用于识别人脸上的一个器官的一种动作。
具体的,在利用第三神经网络对人脸图像进行识别时,可以先利用主干网络对人脸图像进行特征提取,得到人脸图像的特征图,然后分别利用每个分类分支网络根据人脸图像的特征图,进行动作识别,得到每个分类分支网络能够识别的动作的发生概率,然后将发生概率大于预设概率的动作确定为人脸图像代表的人脸上的器官的动作。
具体实施中,在将人脸图像输入至第三神经网络之前,还可以先对人脸图像进行预处理,以增强人脸图像中的关键信息,然后将经过预处理的人脸图像输入至第三神经网络中。
其中,所述对人脸图像进行预处理,可以是先确定人脸图像中的关键点的位置信息,然后基于关键点的位置信息,对人脸图像进行仿射变换,得到人脸图像对应的转正后图像,再对转正后的人脸图像进行归一化处理,得到处理后的人脸图像。
所述对转正后的人脸图像进行归一化处理,包括:计算人脸图像中所包含的各个像素点的像素值均值、以及人脸图像中所包含的各个像素点的像素值标准差;基于所述像素值均值、以及所述像素值标准差,对人脸图像中的每一个像素点的像素值进行归一化处理。
具体的,在基于像素值均值、以及像素值标准差,对人脸图像中的每一个像素点的像素值进行归一化处理时,可以参照下述公式:
其中,Z表示像素点进行归一化处理后的像素值,X表示像素点进行归一化处理前的像素值,μ表示像素值均值,σ表示像素值标准差。
通过上述处理,可以将人脸图像中的人脸进行转正处理,在确定人脸表情时更加精确。
其中,动作单元所检测的动作包括以下至少一种:
皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴。
根据人脸的面部动作检测结果、以及预先设置的面部动作与情绪信息之间的映射关系,可以确定出舱内人员的情绪信息,示例性的,若未检测出任何一个面部动作,则可以确定舱内人员的情绪信息是平静,若检测出舱内人员的面部动作是瞪眼和张嘴,则可以确定舱内人员的情绪信息是惊讶等。
针对步骤103、
在调整舱内的环境设置时,可以包括以下类型的调整中的至少一种:
调整音乐类型;调整温度;调整灯光类型;调整气味。
具体的,在根据舱内人员的属性信息和情绪信息,调整舱内的环境设置时,若舱内人员仅有一人,则可以直接根据该舱内人员的属性信息和情绪信息,从预先设置好的映射关系中,查找对应的调整信息,然后根据调整信息调整舱内的环境设置,其中,所述映射关系用于表示属性信息和情绪信息与调整信息之间的映射关系。
若舱内人员有多人,则可以确定不同舱内人员的属性信息取值中优先级较高的取值,以及不同舱内人员的情绪信息的取值中优先级较高的取值,然后根据优先级较高的属性信息取值和优先级较高的情绪信息的取值,调整舱内的环境设置。
示例性的,若舱内人员有两个,一个人的情绪信息为平静,一个人的情绪信息为伤心,则可以根据“伤心”来调整播放的音乐类型。
在另外一种可能的实施方式中,由于属性信息是有限的,每种属性信息的取值也是有限的,状态信息的取值也是有限的,因此,可以预先设置好每种属性信息的取值和情绪信息的取值对应的调整信息,然后根据检测出的舱内人员的属性信息和情绪信息,去查找对应的调整信息。
这里,由于舱内人员的情绪信息可能是实时变化的,因此,可以随时根据舱内人员的情绪信息的变化情况,实时的对舱内的环境设置进行调整。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与舱内环境的调整方法对应的舱内环境的调整装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述舱内环境的调整方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图10所示,为本公开实施例提供的一种舱内环境的调整装置的架构示意图,所述装置包括:获取模块1001、确定模块1002、调整模块1003、以及训练模块1004;其中,
获取模块1001,用于获取舱内人员的人脸图像;
确定模块1002,用于基于人脸图像,确定所述舱内人员的属性信息和状态信息;
调整模块1003,用于基于所述舱内人员的属性信息和状态信息,调整舱内环境。
一种可能的实施方式中,所述属性信息包括年龄信息的情况,所述年龄信息通过第一神经网络识别得到;
所述装置还包括训练模块1004,所述训练模块1004,用于根据以下方法训练得到所述第一神经网络:
通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测,得到所述样本图像对应的预测年龄值;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
一种可能的实施方式中,所述样本图像集合为多个,所述训练模块1004,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
一种可能的实施方式中,所述样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像;
所述训练模块1004,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
一种可能的实施方式中,所述样本图像集合为多个,每个样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像,同一样本图像集合中的初始样本图像为通过同一图像采集设备采集得到;
所述训练模块1004,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值时,用于:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,并基于计算出的损失值,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
一种可能的实施方式中,所述训练模块1004,在基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值时,用于:
根据每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,计算第一损失值;以及,
根据初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算第二损失值;
将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
一种可能的实施方式中,所述训练模块1004,还用于根据以下方法确定初始样本图像对应的增强样本图像:
生成所述初始样本图像中人脸区域图像对应的三维人脸模型;
将所述三维人脸模型进行不同角度的旋转,得到不同角度下的第一增强样本图像;以及,
将所述初始样本图像中每个像素点在RGB通道上的取值,与不同的光线影响值相加,得到在不同光线影响值下的第二增强样本图像;
所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。
一种可能的实施方式中,所述属性信息包括性别信息,所述确定模块1002,用于根据以下方法确定所述舱内人员的性别信息:
将所述人脸图像输入用于进行性别信息提取的第二神经网络中,输出得到二维特征向量,所述二维特征向量中第一维度上的元素值表示输入的人脸图像为男性的概率,第二维度上的元素值表示输入的人脸图像为女性的概率;
将所述二维特征向量输入至分类器中,将对应的概率大于设定阈值的性别确定为输入的所述人脸图像的性别。
一种可能的实施方式中,所述确定模块1002,还用于根据以下方法确定所述设定阈值:
获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像,以及每张样本图像对应的性别标签;
将多张样本图像输入至所述第二神经网络中,得到每张样本图像分别在多个候选阈值中每一个候选阈值下对应的预测性别;
针对每一个候选阈值,根据该候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率;
将对应的预测准确率最大的候选阈值确定为所述设定阈值。
一种可能的实施方式中,所述确定模块1002,还用于根据以下方法确定所述多个候选阈值:
按照设定步长,从预设取值范围内选取多个所述候选阈值。
一种可能的实施方式中,在所述状态信息包括睁闭眼信息,所述确定模块1002,用于根据以下方法确定所述舱内人员的睁闭眼信息:
对所述人脸图像进行特征提取,得到多维特征向量,所述多维特征向量中每个维度上的元素值表示所述人脸图像中的眼睛处于该维度对应的状态的概率;
将对应的概率值大于预设值的维度所对应的状态,确定为所述舱内人员的睁闭眼信息。
一种可能的实施方式中,眼睛的状态包括以下状态中的任意一种:
人眼不可见、人眼可见且睁眼、人眼可见且闭眼。
一种可能的实施方式中,所述状态信息包括情绪信息,所述确定模块1002,用于根据以下步骤确定舱内人员的情绪信息:
根据所述人脸图像,识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作;
基于识别到的所述每个器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系,确定所述舱内人员的情绪信息。
一种可能的实施方式中,人脸上的器官的动作包括以下动作中的至少两种:
皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴
一种可能的实施方式中,根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作是由第三神经网络执行的,所述第三神经网络包括主干网络和至少两个分类分支网络,每个分类分支网络用于识别人脸上的一个器官的一种动作;
所述确定模块1002,在根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作时,用于:
利用主干网络对所述人脸图像进行特征提取,得到所述人脸图像的特征图;
分别利用每个分类分支网络根据所述人脸图像的特征图进行动作识别,得到每个分类分支网络能够识别的动作的发生概率;
将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。
一种可能的实施方式中,所述调整舱内的环境设置,包括以下类型的调整中的至少一种:
调整音乐类型;调整温度;调整灯光类型;调整气味。
基于同一技术构思,本申请实施例还提供了一种电子设备。参照图11所示,为本申请实施例提供的电子设备1100的结构示意图,包括处理器1101、存储器1102、和总线1103。其中,存储器1102用于存储执行指令,包括内存11021和外部存储器11022;这里的内存11021也称内存储器,用于暂时存放处理器1101中的运算数据,以及与硬盘等外部存储器11022交换的数据,处理器1101通过内存11021与外部存储器11022进行数据交换,当电子设备1100运行时,处理器1101与存储器1102之间通过总线1103通信,使得处理器1101在执行以下指令:
获取舱内人员的人脸图像;
基于人脸图像,确定所述舱内人员的属性信息和状态信息;
基于所述舱内人员的属性信息和状态信息,调整舱内环境。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的舱内环境的调整方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的舱内环境的调整方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的舱内环境的调整方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (19)
1.一种舱内环境的调整方法,其特征在于,包括:
获取舱内人员的人脸图像;
基于人脸图像,确定所述舱内人员的属性信息和状态信息;
基于所述舱内人员的属性信息和状态信息,调整舱内环境。
2.根据权利要求1所述的方法,其特征在于,所述属性信息包括年龄信息的情况,所述年龄信息通过第一神经网络识别得到;
根据以下方法训练得到所述第一神经网络:
通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测,得到所述样本图像对应的预测年龄值;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
3.根据权利要求2所述的方法,其特征在于,所述样本图像集合为多个,基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值。
4.根据权利要求2所述的方法,其特征在于,所述样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
5.根据权利要求2所述的方法,其特征在于,所述样本图像集合为多个,每个样本图像集合中包括多个初始样本图像,以及每一个所述初始样本图像对应的增强样本图像,所述增强样本图像为将所述初始样本图像进行信息变换处理后的图像,同一样本图像集合中的初始样本图像为通过同一图像采集设备采集得到;
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、样本图像集合中的样本图像的预测年龄值之差、以及样本图像集合中的样本图像的年龄标签的年龄值之差,调整第一神经网络的网络参数值,包括:
基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,并基于计算出的损失值,调整第一神经网络的网络参数值;
其中,一个样本图像为初始样本图像或者增强样本图像。
6.根据权利要求5所述的方法,其特征在于,所述基于每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、该任意两个样本图像的年龄标签的年龄值之差、以及初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算本次训练过程中的损失值,包括:
根据每个样本图像对应的预测年龄值与该样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及该任意两个样本图像的年龄标签的年龄值之差,计算第一损失值;以及,
根据初始样本图像的年龄预测值与该初始样本图像对应的增强样本图像的年龄预测值之差,计算第二损失值;
将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
7.根据权利要求4~6任一所述的方法,其特征在于,根据以下方法确定初始样本图像对应的增强样本图像:
生成所述初始样本图像中人脸区域图像对应的三维人脸模型;
将所述三维人脸模型进行不同角度的旋转,得到不同角度下的第一增强样本图像;以及,
将所述初始样本图像中每个像素点在RGB通道上的取值,与不同的光线影响值相加,得到在不同光线影响值下的第二增强样本图像;
所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。
8.根据权利提取要求1所述的方法,其特征在于,所述属性信息包括性别信息,根据以下方法确定所述舱内人员的性别信息:
将所述人脸图像输入用于进行性别信息提取的第二神经网络中,输出得到二维特征向量,所述二维特征向量中第一维度上的元素值表示输入的人脸图像为男性的概率,第二维度上的元素值表示输入的人脸图像为女性的概率;
将所述二维特征向量输入至分类器中,将对应的概率大于设定阈值的性别确定为输入的所述人脸图像的性别。
9.根据权利要求8所述的方法,其特征在于,根据以下方法确定所述设定阈值:
获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像,以及每张样本图像对应的性别标签;
将多张样本图像输入至所述第二神经网络中,得到每张样本图像分别在多个候选阈值中每一个候选阈值下对应的预测性别;
针对每一个候选阈值,根据该候选阈值下的样本图像的预测性别、以及样本图像的性别标签,确定该候选阈值下的预测准确率;
将对应的预测准确率最大的候选阈值确定为所述设定阈值。
10.根据权利要求9所述的方法,其特征在于,根据以下方法确定所述多个候选阈值:
按照设定步长,从预设取值范围内选取多个所述候选阈值。
11.根据权利要求1所述的方法,其特征在于,在所述状态信息包括睁闭眼信息,根据以下方法确定所述舱内人员的睁闭眼信息:
对所述人脸图像进行特征提取,得到多维特征向量,所述多维特征向量中每个维度上的元素值表示所述人脸图像中的眼睛处于该维度对应的状态的概率;
将对应的概率值大于预设值的维度所对应的状态,确定为所述舱内人员的睁闭眼信息。
12.根据权利要求11所述的方法,其特征在于,眼睛的状态包括以下状态中的任意一种:
人眼不可见、人眼可见且睁眼、人眼可见且闭眼。
13.根据权利要求1所述的方法,其特征在于,所述状态信息包括情绪信息,根据以下步骤确定舱内人员的情绪信息:
根据所述人脸图像,识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作;
基于识别到的所述每个器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系,确定所述舱内人员的情绪信息。
14.根据权利要求13所述的方法,其特征在于,人脸上的器官的动作包括以下动作中的至少两种:
皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴。
15.根据权利要求13所述的方法,其特征在于,根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作是由第三神经网络执行的,所述第三神经网络包括主干网络和至少两个分类分支网络,每个分类分支网络用于识别人脸上的一个器官的一种动作;
根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每个器官的动作,包括:
利用主干网络对所述人脸图像进行特征提取,得到所述人脸图像的特征图;
分别利用每个分类分支网络根据所述人脸图像的特征图进行动作识别,得到每个分类分支网络能够识别的动作的发生概率;
将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。
16.根据权利要求1-15任一所述的方法,其特征在于,所述调整舱内的环境设置,包括以下类型的调整中的至少一种:
调整音乐类型;调整温度;调整灯光类型;调整气味。
17.一种舱内环境的调整装置,其特征在于,包括:
获取模块,用于获取舱内人员的人脸图像;
识别模块,用于基于人脸图像,对所述舱内人员进行属性识别和表情识别,确定所述舱内人员的属性信息和情绪信息;
调整模块,用于基于所述舱内人员的属性信息和情绪信息,调整舱内的环境设置。
18.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至16任一所述的舱内环境的调整方法的步骤。
19.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至16任一所述的舱内环境的调整方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237887.1A CN111439267B (zh) | 2020-03-30 | 2020-03-30 | 一种舱内环境的调整方法及装置 |
JP2022524727A JP2022553779A (ja) | 2020-03-30 | 2020-12-10 | キャビン内の環境の調整方法及び装置 |
PCT/CN2020/135500 WO2021196721A1 (zh) | 2020-03-30 | 2020-12-10 | 一种舱内环境的调整方法及装置 |
KR1020227013199A KR20220063256A (ko) | 2020-03-30 | 2020-12-10 | 캐빈 내부 환경의 조절 방법 및 장치 |
US17/722,554 US20220237943A1 (en) | 2020-03-30 | 2022-04-18 | Method and apparatus for adjusting cabin environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237887.1A CN111439267B (zh) | 2020-03-30 | 2020-03-30 | 一种舱内环境的调整方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111439267A true CN111439267A (zh) | 2020-07-24 |
CN111439267B CN111439267B (zh) | 2021-12-07 |
Family
ID=71649308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010237887.1A Active CN111439267B (zh) | 2020-03-30 | 2020-03-30 | 一种舱内环境的调整方法及装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220237943A1 (zh) |
JP (1) | JP2022553779A (zh) |
KR (1) | KR20220063256A (zh) |
CN (1) | CN111439267B (zh) |
WO (1) | WO2021196721A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329665A (zh) * | 2020-11-10 | 2021-02-05 | 上海大学 | 一种人脸抓拍*** |
WO2021196721A1 (zh) * | 2020-03-30 | 2021-10-07 | 上海商汤临港智能科技有限公司 | 一种舱内环境的调整方法及装置 |
CN113850243A (zh) * | 2021-11-29 | 2021-12-28 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085701B (zh) * | 2020-08-05 | 2024-06-11 | 深圳市优必选科技股份有限公司 | 一种人脸模糊度检测方法、装置、终端设备及存储介质 |
TWI755318B (zh) * | 2021-04-26 | 2022-02-11 | 和碩聯合科技股份有限公司 | 分類方法及電子裝置 |
CN114132328B (zh) * | 2021-12-10 | 2024-05-14 | 智己汽车科技有限公司 | 一种自动调节驾乘环境的辅助驾驶***及方法、存储介质 |
CN114925806A (zh) * | 2022-03-30 | 2022-08-19 | 北京达佳互联信息技术有限公司 | 信息处理方法、信息处理模型训练方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000010993U (ko) * | 1998-11-28 | 2000-06-26 | 윤종용 | 방수수단을 갖는 키 입력장치 |
CN105069400A (zh) * | 2015-07-16 | 2015-11-18 | 北京工业大学 | 基于栈式稀疏自编码的人脸图像性别识别*** |
CN107194347A (zh) * | 2017-05-19 | 2017-09-22 | 深圳市唯特视科技有限公司 | 一种基于面部动作编码***进行微表情检测的方法 |
CN108528371A (zh) * | 2018-03-07 | 2018-09-14 | 北汽福田汽车股份有限公司 | 车辆的控制方法、***及车辆 |
CN109131167A (zh) * | 2018-08-03 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 用于控制车辆的方法和装置 |
CN109308519A (zh) * | 2018-09-29 | 2019-02-05 | 广州博通信息技术有限公司 | 一种基于神经网络的制冷设备故障预测方法 |
CN109686050A (zh) * | 2019-01-18 | 2019-04-26 | 桂林电子科技大学 | 基于云服务与深度神经网络的车内环境监测预警方法 |
CN109711309A (zh) * | 2018-12-20 | 2019-05-03 | 北京邮电大学 | 一种自动识别人像图片是否闭眼的方法 |
CN109766840A (zh) * | 2019-01-10 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 人脸表情识别方法、装置、终端及存储介质 |
CN110175501A (zh) * | 2019-03-28 | 2019-08-27 | 重庆电政信息科技有限公司 | 基于人脸识别的多人场景专注度识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222196B2 (en) * | 2018-07-11 | 2022-01-11 | Samsung Electronics Co., Ltd. | Simultaneous recognition of facial attributes and identity in organizing photo albums |
KR20200010993A (ko) * | 2018-07-11 | 2020-01-31 | 삼성전자주식회사 | 보완된 cnn을 통해 이미지 속 얼굴의 속성 및 신원을 인식하는 전자 장치. |
CN111439267B (zh) * | 2020-03-30 | 2021-12-07 | 上海商汤临港智能科技有限公司 | 一种舱内环境的调整方法及装置 |
-
2020
- 2020-03-30 CN CN202010237887.1A patent/CN111439267B/zh active Active
- 2020-12-10 WO PCT/CN2020/135500 patent/WO2021196721A1/zh active Application Filing
- 2020-12-10 KR KR1020227013199A patent/KR20220063256A/ko active Search and Examination
- 2020-12-10 JP JP2022524727A patent/JP2022553779A/ja not_active Withdrawn
-
2022
- 2022-04-18 US US17/722,554 patent/US20220237943A1/en not_active Abandoned
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000010993U (ko) * | 1998-11-28 | 2000-06-26 | 윤종용 | 방수수단을 갖는 키 입력장치 |
CN105069400A (zh) * | 2015-07-16 | 2015-11-18 | 北京工业大学 | 基于栈式稀疏自编码的人脸图像性别识别*** |
CN107194347A (zh) * | 2017-05-19 | 2017-09-22 | 深圳市唯特视科技有限公司 | 一种基于面部动作编码***进行微表情检测的方法 |
CN108528371A (zh) * | 2018-03-07 | 2018-09-14 | 北汽福田汽车股份有限公司 | 车辆的控制方法、***及车辆 |
CN109131167A (zh) * | 2018-08-03 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 用于控制车辆的方法和装置 |
CN109308519A (zh) * | 2018-09-29 | 2019-02-05 | 广州博通信息技术有限公司 | 一种基于神经网络的制冷设备故障预测方法 |
CN109711309A (zh) * | 2018-12-20 | 2019-05-03 | 北京邮电大学 | 一种自动识别人像图片是否闭眼的方法 |
CN109766840A (zh) * | 2019-01-10 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 人脸表情识别方法、装置、终端及存储介质 |
CN109686050A (zh) * | 2019-01-18 | 2019-04-26 | 桂林电子科技大学 | 基于云服务与深度神经网络的车内环境监测预警方法 |
CN110175501A (zh) * | 2019-03-28 | 2019-08-27 | 重庆电政信息科技有限公司 | 基于人脸识别的多人场景专注度识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021196721A1 (zh) * | 2020-03-30 | 2021-10-07 | 上海商汤临港智能科技有限公司 | 一种舱内环境的调整方法及装置 |
CN112329665A (zh) * | 2020-11-10 | 2021-02-05 | 上海大学 | 一种人脸抓拍*** |
CN112329665B (zh) * | 2020-11-10 | 2022-05-17 | 上海大学 | 一种人脸抓拍*** |
CN113850243A (zh) * | 2021-11-29 | 2021-12-28 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2022553779A (ja) | 2022-12-26 |
WO2021196721A1 (zh) | 2021-10-07 |
CN111439267B (zh) | 2021-12-07 |
US20220237943A1 (en) | 2022-07-28 |
KR20220063256A (ko) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111439267B (zh) | 一种舱内环境的调整方法及装置 | |
CN107330904B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
Mao et al. | Hierarchical Bayesian theme models for multipose facial expression recognition | |
CN111767900B (zh) | 人脸活体检测方法、装置、计算机设备及存储介质 | |
CN106803055B (zh) | 人脸识别方法和装置 | |
CN112598643B (zh) | 深度伪造图像检测及模型训练方法、装置、设备、介质 | |
CN109271930B (zh) | 微表情识别方法、装置与存储介质 | |
Guo et al. | Improved hand tracking system | |
Choi et al. | Shadow compensation in 2D images for face recognition | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN111209867A (zh) | 一种表情识别方法及装置 | |
Song et al. | Dynamic facial models for video-based dimensional affect estimation | |
Gudipati et al. | Efficient facial expression recognition using adaboost and haar cascade classifiers | |
CN112036284B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113269010B (zh) | 一种人脸活体检测模型的训练方法和相关装置 | |
Mousavi | A new way to age estimation for rgb-d images, based on a new face detection and extraction method for depth images | |
Travieso et al. | Bimodal biometric verification based on face and lips | |
KR101672814B1 (ko) | 랜덤 포레스트를 이용한 성별인식 방법 | |
Travieso et al. | Using a discrete Hidden Markov Model Kernel for lip-based biometric identification | |
JP4375571B2 (ja) | 顔類似度算出方法および装置 | |
Srininvas et al. | A framework to recognize the sign language system for deaf and dumb using mining techniques | |
Geetha et al. | 3D face recognition using Hadoop | |
JP2015041293A (ja) | 画像認識装置および画像認識方法 | |
Soltani et al. | Euclidean distance versus Manhattan distance for skin detection using the SFA database | |
US12020507B2 (en) | System and method for determining a facial expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |