CN111949124A - 一种基于视觉跟踪的自适应显示器定位方法 - Google Patents

一种基于视觉跟踪的自适应显示器定位方法 Download PDF

Info

Publication number
CN111949124A
CN111949124A CN202010634039.4A CN202010634039A CN111949124A CN 111949124 A CN111949124 A CN 111949124A CN 202010634039 A CN202010634039 A CN 202010634039A CN 111949124 A CN111949124 A CN 111949124A
Authority
CN
China
Prior art keywords
network
labeled
point cloud
face
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010634039.4A
Other languages
English (en)
Other versions
CN111949124B (zh
Inventor
谢浩彬
陈新度
吴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010634039.4A priority Critical patent/CN111949124B/zh
Publication of CN111949124A publication Critical patent/CN111949124A/zh
Application granted granted Critical
Publication of CN111949124B publication Critical patent/CN111949124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉跟踪的自适应显示器定位方法,包括:安装好相机;对Efficient‑Net目标检测网络进行更改,构建图人脸位置检测装置;结合点云分割网络GAC‑Net和Point‑CNN框架,构建人脸点云语义分割网络;先建立图像数据库并进行标注,利用LabelImg软件标注出人脸X、Y、W和H的值,利用Labelme标注出人脸中左眼和右眼区域像素的类别为1和2,其余背景类别为0。本发明的方法可以应用于现有电动显示器装置上,实现显示器的自适应定位。

Description

一种基于视觉跟踪的自适应显示器定位方法
技术领域
本发明涉及人工智能技术,具体涉及一种基于视觉跟踪的自适应显示器定位方法。
背景技术
目前,在使用电脑时,市场上流行的显示器支架基本都是固定或者人工调节的,而用户如果对适当角度的把控有偏差,容易因为显示器的位置不正确,长时间看显示器时,会因为坐姿不正确引起健康问题,比如驼背,严重者可能导致腰间盘突出等重大问题。
发明内容
本发明的主要目的在于提供一种基于视觉跟踪的自适应显示器定位方法,在日常使用电脑时自动调节显示器,使显示器达到最佳显示位置,同时解决人们因面对显示器坐姿不正确的问题。
本发明采用的技术方案是:一种基于视觉跟踪的自适应显示器定位方法,包括:
安装好相机;
对Efficient-Net目标检测网络进行更改,构建图人脸位置检测装置;
结合点云分割网络GAC-Net和Point-CNN框架,构建人脸点云语义分割网络;
先建立图像数据库并进行标注,利用LabelImg软件标注出人脸X、Y、W和H的值,利用Labelme标注出人脸中左眼和右眼区域像素的类别为1和2,其余背景类别为0。
进一步地,所述对Efficient-Net目标检测网络进行更改,构建图人脸位置检测装置还包括:
去除原网络中的分类分支,仅保留回归分支,并且回归分支中仅预测4个值,X、Y、W和H,分别对应人脸位置左上角的坐标及其长和宽,其被归一化为[0,1]范围内,其位置结果用于裁剪深度图中的人脸区域。
更进一步地,所述结合点云分割网络GAC-Net和Point-CNN框架,构建人脸点云语义分割网络包括:
所述网络输出分为三类,分别为左眼、右眼和背景,左眼和右眼点云通过PCA计算法向量并取平均值v,结合其高度,获得显示器运动预测结果。
更进一步地,所述的基于视觉跟踪的自适应显示器定位方法还包括:
分别建立损失函数,人脸位置检测网络为L1损失,即L1=|X-X'|+|Y-Y'|+|W-W'|+|H-H'|,其中X、Y、W和H为真是标签值,X'、Y'、W'和H'为预测值,通过损失函数更新网络模型参数,提高模型的准确率,从而获得预测参数模型。
本发明的优点:
本发明的方法可以应用于现有电动显示器装置上,实现显示器的自适应定位。
本发明是基于深层神经网络在目标检测和语义分割的优异特性,结合人机工程学,从而解决人们日常使用电脑时自动调节显示器。
本发明的方法,在日常使用电脑时自动调节显示器,使显示器达到最佳显示位置,同时解决人们因面对显示器坐姿不正确的问题。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1 是本发明的自适应显示器装置简图;
图2 是本发明的自适应显示器运动简图;
图3 是本发明的方法原理图;
图4 是本发明的基于Efficient-Det的人脸位置检测网络;
图5 是本发明的基于GAC-Net和Point-CNN的人脸点云分割网络;
图6 是本发明的神经网络训练流程图;
图7 是本发明的自适应显示器运动结果预测流程图;
图8 是本发明的预测结果参数。
附图标记:
11为底座、12为相机、13为滑轨、14为滑块、15为连杆、16为屏幕;
21为滑块、22为连杆。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1至图8,如图1至图8所示,本发明基本组成:包括显示器、RGB-D相机、人脸位置检测网络、人脸点云分割网络和机器视觉处理***。
所述的机器视觉处理***由具有计算能力的设备组成,所述的RGB-D相机可以采用微软的Kinect等RGB-D相机,所述的显示器可以采用已有方法进行平移和旋转。
该方法利用RGB-D相机采取显示器使用用户的彩色图像和深度图,将所述的彩色图像输入人脸位置检测网络,输出人脸位置。将人脸位置信息输入所述的深度图进行裁剪人脸区域,将人脸区域深度图转换为点云,输入人脸点云分割网络,从而分割出人脸中左眼和右眼的区域。分别计算所述的左眼和右眼的法向量并取其平均值为v,同时结合左右眼的平均高度h,查找已建立好的“显示器位移和旋转角度与人眼法向量v和高度h的映射表格”,获取显示器的最佳位置,从而实现指导显示器进行自适应移动。通过对人眼位置的准确获取,实现对自适应显示器的精密控制。
本发明的主要实现过程:
完成“显示器位移和旋转角度与人眼法向量v和高度h的映射表格”的建立。
完成人脸位置检测网络的建立并对其进行训练。
完成人脸点云分割网络的联机并对其进行训练。
本发明的方法可以应用于现有电动显示器装置上,实现显示器的自适应定位。
本发明是基于深层神经网络在目标检测和语义分割的优异特性,结合人机工程学,从而解决人们日常使用电脑时自动调节显示器。
本发明的方法,在日常使用电脑时自动调节显示器,使显示器达到最佳显示位置,同时解决人们因面对显示器坐姿不正确的问题。
本发明的具体方法如下:
按照如图1中的布局安装RGB-D相机。
按照现有电动显示器实现图2中滑块沿Z轴的直线运动和连杆绕X轴的旋转运动。
对Efficient-Net目标检测网络进行更改,构建图4中的人脸位置检测装置,Efficient-Net具有速度快、精度高的优点。
由于进行检测的只有一个类别——人脸,故去除原网络中的分类分支,仅保留回归分支,并且回归分支中仅预测4个值,X、Y、W和H,分别对应人脸位置左上角的坐标及其长和宽,其被归一化为[0,1]范围内,目的是方便神经网络的训练。
其位置结果用于裁剪深度图中的人脸区域,以便转化人脸点云。
结合点云分割网络GAC-Net和Point-CNN框架,构建图5中的人脸点云语义分割网络, GAC是图卷积注意力卷积,可以提高网络的注意力机制,XCONV对于点云无序性具有很好地处理效果,通过迭代GAC和XCONV层,从而的提高网络的语义分割性能。
所述网络输出3个类别,分别为左眼、右眼和背景,左眼和右眼点云通过PCA计算法向量并取平均值v,结合其高度,便可获得显示器运动预测结果。
神经网络需要大量数据进行训练,根据图6中流程所述,需先建立图像数据库并进行标注,利用LabelImg软件标注出人脸X、Y、W和H的值,利用Labelme标注出人脸中左眼和右眼区域像素的类别为1和2,其余背景类别为0。
再建立步骤3和4中的模型。分别建立损失函数,人脸位置检测网络为L1损失,即L1=|X-X'|+|Y-Y'|+|W-W'|+|H-H'|,其中X、Y、W和H为真是标签值,X'、Y'、W'和H'为预测值,人脸点云分割网络为典型的Cross-Entropy损失函数,在此不赘述。通过损失函数更新网络模型参数,提高模型的准确率,从而获得预测参数模型。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于视觉跟踪的自适应显示器定位方法,其特征在于,包括:
安装好相机;
对Efficient-Net目标检测网络进行更改,构建图人脸位置检测装置;
结合点云分割网络GAC-Net和Point-CNN框架,构建人脸点云语义分割网络;
先建立图像数据库并进行标注,利用LabelImg软件标注出人脸X、Y、W和H的值,利用Labelme标注出人脸中左眼和右眼区域像素的类别为1和2,其余背景类别为0。
2.根据权利要求1所述的基于视觉跟踪的自适应显示器定位方法,其
特征在于,所述对Efficient-Net目标检测网络进行更改,构建图人脸位置检测装置还包括:
去除原网络中的分类分支,仅保留回归分支,并且回归分支中仅预测4个值,X、Y、W和H,分别对应人脸位置左上角的坐标及其长和宽,其被归一化为[0,1]范围内,其位置结果用于裁剪深度图中的人脸区域。
3.根据权利要求1所述的基于视觉跟踪的自适应显示器定位方法,其
特征在于,所述结合点云分割网络GAC-Net和Point-CNN框架,构建人脸点云语义分割网络包括:
所述网络输出分为三类,分别为左眼、右眼和背景,左眼和右眼点云通过PCA计算法向量并取平均值v,结合其高度,获得显示器运动预测结果。
4.根据权利要求1所述的基于视觉跟踪的自适应显示器定位方法,其
特征在于,还包括:
分别建立损失函数,人脸位置检测网络为L1损失,即L1=|X-X'|+|Y-Y'|+|W-W'|+|H-H'|,其中X、Y、W和H为真是标签值,X'、Y'、W'和H'为预测值,通过损失函数更新网络模型参数,提高模型的准确率,从而获得预测参数模型。
CN202010634039.4A 2020-07-02 2020-07-02 一种基于视觉跟踪的自适应显示器定位方法 Active CN111949124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010634039.4A CN111949124B (zh) 2020-07-02 2020-07-02 一种基于视觉跟踪的自适应显示器定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634039.4A CN111949124B (zh) 2020-07-02 2020-07-02 一种基于视觉跟踪的自适应显示器定位方法

Publications (2)

Publication Number Publication Date
CN111949124A true CN111949124A (zh) 2020-11-17
CN111949124B CN111949124B (zh) 2023-09-01

Family

ID=73337646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634039.4A Active CN111949124B (zh) 2020-07-02 2020-07-02 一种基于视觉跟踪的自适应显示器定位方法

Country Status (1)

Country Link
CN (1) CN111949124B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226407A (zh) * 2008-01-24 2008-07-23 北京中星微电子有限公司 一种显示装置角度自动调整***及方法
CN104866089A (zh) * 2014-02-26 2015-08-26 威斯通全球技术公司 基于检测到的方位调节显示器
US20160154458A1 (en) * 2014-11-28 2016-06-02 Shenzhen Estar Technology Group Co., Ltd. Distance adaptive holographic displaying method and device based on eyeball tracking
CN109934115A (zh) * 2019-02-18 2019-06-25 苏州市科远软件技术开发有限公司 人脸识别模型的构建方法、人脸识别方法及电子设备
CN110728172A (zh) * 2019-08-23 2020-01-24 北京迈格威科技有限公司 基于点云的人脸关键点检测方法、装置、***及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226407A (zh) * 2008-01-24 2008-07-23 北京中星微电子有限公司 一种显示装置角度自动调整***及方法
CN104866089A (zh) * 2014-02-26 2015-08-26 威斯通全球技术公司 基于检测到的方位调节显示器
US20160154458A1 (en) * 2014-11-28 2016-06-02 Shenzhen Estar Technology Group Co., Ltd. Distance adaptive holographic displaying method and device based on eyeball tracking
CN109934115A (zh) * 2019-02-18 2019-06-25 苏州市科远软件技术开发有限公司 人脸识别模型的构建方法、人脸识别方法及电子设备
CN110728172A (zh) * 2019-08-23 2020-01-24 北京迈格威科技有限公司 基于点云的人脸关键点检测方法、装置、***及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘成攀: "基于自监督深度学习的人脸表征及三维重建", 《传感器与微***》 *
刘成攀: "基于自监督深度学习的人脸表征及三维重建", 《传感器与微***》, vol. 38, no. 9, 12 September 2019 (2019-09-12), pages 126 - 133 *
许洁;: "基于透视投影的人眼视线方向估计算法", 微型电脑应用, no. 09, pages 36 - 44 *

Also Published As

Publication number Publication date
CN111949124B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US11354851B2 (en) Damage detection from multi-view visual data
US10748313B2 (en) Dynamic multi-view interactive digital media representation lock screen
CN112771539B (zh) 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
US20200257862A1 (en) Natural language understanding for visual tagging
CN104317391B (zh) 一种基于立体视觉的三维手掌姿态识别交互方法和***
US20170359570A1 (en) Multi-View Interactive Digital Media Representation Lock Screen
KR102441171B1 (ko) 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
WO2020125499A1 (zh) 一种操作提示方法及眼镜
Levin Real-time target and pose recognition for 3-d graphical overlay
US11776142B2 (en) Structuring visual data
US20210312702A1 (en) Damage detection from multi-view visual data
CN104899563A (zh) 一种二维人脸关键特征点定位方法及***
CN101180653A (zh) 用于三维呈现的方法和设备
WO2020154096A1 (en) Damage detection from multi-view visual data
CN113095274B (zh) 一种视线估计方法、***、装置及存储介质
WO2021146449A1 (en) Visual object history
US11972556B2 (en) Mobile multi-camera multi-view capture
Moeslund et al. A natural interface to a virtual environment through computer vision-estimated pointing gestures
CN109407824A (zh) 人体模型的同步运动方法与装置
US20220408019A1 (en) Viewpoint path modeling
WO2019213392A1 (en) System and method for generating combined embedded multi-view interactive digital media representations
CN107066095B (zh) 一种信息处理方法及电子设备
CN111949124A (zh) 一种基于视觉跟踪的自适应显示器定位方法
Kundur et al. Novel active vision-based visual threat cue for autonomous navigation tasks
US20220406003A1 (en) Viewpoint path stabilization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant