CN110428908B - 一种基于人工智能的眼睑运动功能评估*** - Google Patents
一种基于人工智能的眼睑运动功能评估*** Download PDFInfo
- Publication number
- CN110428908B CN110428908B CN201910704037.5A CN201910704037A CN110428908B CN 110428908 B CN110428908 B CN 110428908B CN 201910704037 A CN201910704037 A CN 201910704037A CN 110428908 B CN110428908 B CN 110428908B
- Authority
- CN
- China
- Prior art keywords
- video
- detected object
- face
- movement
- eyelid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/113—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Surgery (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Heart & Thoracic Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于人工智能的眼睑运动异常评估***,包括:受检对象获取模块:用于从输入的受检对象的面部动作视频中获得只包含所述受检对象的面部视频;眼睛及指定部位定位模块:用于定位所述面部视频的眼睛及指定部位,并获得只包括所述受检对象的眼睛运动视频及指定部位联动视频;TSN模型:用于处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号;概率输出模块:用于输出每帧画面计算机判断眼睑运动异常出现的概率信号;评估模块,用于根据眼睑运动异常出现的概率信号和眼睑运动异常概率判断机制获得异常等级。本发明具有全民可接受性、便捷性、准确性、客观性和可重复性,临床使用性强。
Description
技术领域
本发明涉及眼睑运动异常程度评估领域,更具体地,涉及一种基于人工智能的眼睑运动功能评估***。
背景技术
现有观察眼睑运动异常的技术主要包括神经肌肉记录仪技术、脑干磁共振血管成像技术(MRA)检查和佩戴记录眼睑运动频率功能的新型眼镜。神经肌肉记录仪技术存在的缺点是技术操作复杂,费时费力,对老年人、儿童来说配合度低;同时,对于不同原因引起的眼睑运动功能异常从发病诱因、频率、双眼对称性、眼睑闭合的程度等各不相同,因此,测量结果易受检测人员主观因素的影响,结果缺乏可重复性和稳定性,难以在人群中大范围开展早期的检查。脑干磁共振血管成像技术(MRA)检查只能用于判断眼睑痉挛的是否与面神经受异常的血管有关系,且价格昂贵,需要病人高度配合。佩戴记录眼睑运动频率功能的新型眼镜,只能记录眼睑的闭合情况,不能记录除眼睛与其他部位的联动的情况,且眼镜成本高且普及力度较低,很多小朋友对佩戴眼镜的配合程度较低,且不能呈现最自然的用眼状态。
现有技术对测试环境、检测设备和检测人员都有较高的要求,人力物力等成本较高。
现有技术适用范围具有局限性:神经肌肉记录仪需在眶上神经安放刺激电极,双眼下睑中部用导电膏介导,从而记录双眼轮匝肌的运动波形。但由于受检者,特别是儿童配合程度较低,因此结果会存在较大的误差;脑干磁共振血管成像技术(MRA),主要观察脑干部位的血管异常与面神经脑干的相互关系。发现其病因常为面神经在小脑桥脑角被血管或肿瘤压迫。应用范围局限,主要用于排除鉴别诊断;佩戴记录眼睑运动频率功能的新型眼镜要求受检者能持续佩戴,导致受检者在检测中易表现出紧张、好奇等不自然的状态,另外随意脱、戴也会严重影响眼睑运动反射的记录过程,从而严重影响了检查结果的准确性和有效性。现有技术的测试结果具有主观性:现有技术对于不同发病诱因原因引起的眼睑运动频率、双眼对称性、眼睑闭合力度等的记录方式各不相同,因此,测量结果判读受检测人员主观因素的影响,使得测量结果的可重复性较低。
现有技术的测试环境具有限制性:由于检查过程对测试设备、环境的要求,现有的检查评估技术无法在日常生活环境中开展,导致现阶段无法开展干眼、眼睑运动反射异常、眼睑痉挛等的大规模检查,比如在医生诊室外、日常生活中的检查。
综上,由于测量人群的特殊性(儿童、老年人、甲亢病人多见),传统测量手段限制了眼睑功能的测量,导致在现有技术基础上难以在人群中开展大面积的眼睑功能的筛查,使大量的眼睑功能异常的患者错过了最佳治疗时机,最终引起不可逆性角膜或者结膜损伤,给家庭、医疗和社会资源造成了巨大的压力。因此,实现人群中大规模的眼睑功能早期筛查是避免出现视觉受损和识别面神经病变的重要前提。
深度学习技术已经广泛应用于计算机视觉领域。作为深度学习技术之一,CNN(Convolutional Neural Network,卷积神经网络) 模型大大提高了图像分类的准确性,给图像分类任务带来质变。针对任何一个数据库都可以设计合适的CNN模型,该CNN模型可以用于训练数据库中的样本,从而得到数据库中的样本与样本的标签之间的联系。这里,数据库中的样本可以是图像,也可以是视频。
经本发明技术团队前期研究发现,眼睑运动异常患者出现干眼、眼表炎症等眼病以及面神经、三叉神经、脑干病变时,会表现出与正常人不同的面部动作模态。即当出现相应的眼部疾病或者神经病变时,在疾病的早期表现出于正常人不同的面部动作模态,体现为频繁眨眼>15次/mi或用力眨眼或眨眼时上下眼睑闭合不完全,病情较重时可伴随眉毛、鼻翼及嘴巴等关键部位的联动动作,如在用力眨眼后嘴巴张大。因此,一般眼睑运动检测设备单对眼睛进行检测评估会造成评估结果片面不准确的技术问题。本发明的技术方案利用前期收集的眼睑功能正常和异常的大量视频数据,训练人工智能算法进行动作识别,通过识别眼睛和关键部位的动作,判断受检者是否存在眼睑运动异常。
发明内容
本发明内容的目的在于解决现有眼睑运动异常检测设备对测试环境、检测设备和检测人员都有较高的要求,人力物力成本较高,检测结果片面不够准确的技术问题;提供一种具有全民可接受性、便捷性、客观性、准确性和可重复性,临床使用性强的基于人工智能的眼睑运动功能评估***。
为解决上述问题,提供一种基于人工智能的眼睑运动功能评估***,包括:
受检对象获取模块:用于从输入的受检对象的面部动作视频中获得每帧受检对象的面部特征区域,剪去每帧非受检对象的面部特征区域,获得只包含受检对象的面部视频;
眼睛及指定部位定位模块:用于定位和图像处理面部视频的眼睛及指定部位,该指定部位有一种或多种对应受检对象的关键部位;裁剪生成受检对象的眼睛运动视频及指定部位联动视频;
基于卷积神经网络的TSN模型:用于处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号;
概率输出模块:将TSN输出的动作信号作为输入,用于输出每帧画面计算机判断眼睑运动异常出现的概率信号;眼睑运动异常出现的概率信号包括眼睑运动异常时眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号;
评估模块:用于根据眼睛运动出现异常的概率信号、每个指定部位运动出现异常联动动作的概率信号和眼睑运动异常概率判断机制获得异常等级,判断受检对象的眼睑运动异常的严重程度;
受检对象获取模块包括:
Faster-RCNN神经网络模型,用于定位所述面部动作视频中每一帧受检对象的人脸区域,并将人脸区域逐帧输入至人脸识别模型;
人脸识别模型,包括左侧脸、正脸和右侧脸分类模型,用于识别每个人脸区域中不同方位的受检对象的面部特征;
眼睛及指定部位定位模块包括CPM的CNN结构、PAF的CNN结构和图像处理模块。
特别的,面部动作视频的时长≥5min。
特别的,面部动作视频为受检对象的面部位于镜头中央的视频。
特别的,从输入的受检对象的面部动作视频中获得每帧受检对象的面部特征区域的具体方法为:
(1)所述面部动作视频输入Faster-RCNN神经网络模型,定位所述面部动作视频中每一帧受检对象的人脸区域,并将每一帧的人脸区域输入至人脸识别模型;
(2)所述人脸识别模型识别每一帧人脸区域中不同方位的所述受检对象的面部特征;
(3)对面部动作视频的每帧进行步骤(1)和步骤(2),获得每帧受检对象的面部特征区域。
特别的,指定部位和关键部位都包括头部、鼻部、嘴巴和眉毛。
特别的,定位面部视频的指定部位的具体方法为:
(1)通过CPM的CNN结构得到面部视频的眼睛与眉毛、鼻部、嘴巴的关节点的热图来判断关节点;
(2)通过PAF的CNN结构得到2D的向量几何来编码面部视频的眉毛、鼻部和嘴巴的运动方向,定位出眉毛、鼻部和嘴巴;
(3)通过图像处理模块学习包含眼睛的视频,定位出眼睛;并截取出面部视频中眼睑闭合瞬间的图像,分析该图像中眼睑闭合的程度,通过图片灰度处理技术将其眼睑部分与瞳孔部分进行处理。
特别的,TSN模型处理眼睛运动视频和指定部位联动视频并输出动作信号的方法采取BN-inception v3卷积神经网络的基础框架进行实现,其具体方法为:
(1)从输入的眼睛运动视频和指定部位联动视频中稀疏采样生成一系列短片段作为输入;
(2)将短片段中合适大小的RGB格式图像和光流格式图像分别通过时间流卷积神经网络和空间流卷积神经网络进行卷积操作,获得眼睛及指定部位的动作信号,并将该动作信号进行输出。
特别的,概率输出模块输出眼睑运动异常出现的概率信号的具体方法为:
(1)将TSN模型输出的动作信号作为输入,训练机器学习分类器,结合若干个短片段的类别得分输出以获得短片段之间关于类别假设的共识,获得段共识函数 G,基于这个共识,预测函数 H 预测整段视频属于眼睛及指定部位的每个行为类别的概率信号;行为类别包括受检对象出现眼睑运动异常时眼睛出现异常动作的行为类别及每个指定部位出现异常联动动作的行为类别;
(2)输出眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号。
特别的,眼睑运动异常等级判断机制包括眼睛运动判断机制和联动动作判断机制;
眼睛运动判断机制为设置阈值P信号将眼睛运动分为有异常和无异常两个等级,并与眼睛出现异常动作的概率信号对比;若眼睛出现异常动作的概率信号高于阈值P信号则为有异常等级;若眼睛出现异常动作的概率信号低于阈值P信号则异常等级为无异常等级;
当获得眼睛运动出现异常的判断机制的等级为有异常等级时,执行联动动作判断机制;
联动动作判断机制为设置每个指定部位运动异常的阈值信号,分为轻、重两个级别;若其中一个指定部位运动出现异常联动动作的概率信号高于该指定部位运动异常的阈值信号,则异常等级为轻级别,否则异常等级为重级别。
根据上述眼睑运动功能评估***进行评估的方法,包括以下步骤:
S1:通过受检对象获取模块从输入的受检对象的面部动作视频中获得只包含受检对象的面部视频;
S2:通过眼睛及指定部位定位模块定位面部视频的眼睛及指定部位,裁剪生成所述受检对象的眼睛运动视频及指定部位联动视频;
S3:通过TSN模型处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号;
S4:将TSN输出的动作信号输入概率输出模块,输出每帧画面计算机判断眼睑运动异常出现的概率信号;
S5:通过评估模块,根据眼睑运动异常出现的概率信号和眼睑运动异常概率判断机制获得异常等级,判断受检对象的眼睑运动异常的严重程度。
本发明的有益效果:
1.本发明具有全民可接受性:传统的检测方案由于儿童或者老年人无检测过程中配合程度低,在检查时常常表现出紧张、恐惧等情绪,伴随着哭闹等抗拒行为导致检查结果准确性降低。本技术方案研发了所有年龄段都可以接受的检测方法,以摄像头记录面部动作表***的形式,提高受检者对测试过程的配合度及准确度。
2.本发明具有便捷性:传统的检测方案受到检测设备、环境、测试人员等条件限制,无法大规模开展。本发明的技术方案对检测条件要求低,检测过程方便快捷,可以实现人群大规模筛查,并可对患者实现长期跟踪和评估。
3.本发明具有客观性和可重复性:传统的检测方受检者往往难以配合测量以及由于测量人员主观因素等造成的测量结果缺乏客观性,常常不可重复。本发明通过受检者眼睑运动与面部表情的高度关联性,将人工智能技术用于动作识别。利用了人工智能技术的稳定性和可重复性,使检查结果更加客观。
4.本发明具有准确性:本发明结合对眼睛运动及关键部位的联动运动进行动作识别,并采用眼睑运动异常等级判断机制获得异常等级,判断所述受检对象的眼睑运动异常的严重程度,相较一般眼睑运动检测设备单对眼睛进行检测评估,更为准确。
5.本发明的临床使用性强:该方法可通过观察患者在多种自然状态下(视近、视远、诊室外、诊室内等)最自然眼睑运动,同时利用人工智能的方法,分析受检者的视频中眼睑运动功能的情况,排除医生诊断以及检查医生操作的主观性,从而获得最理想的诊断的手段。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的***的结构图;
图2为本发明实施例的方法的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示,本实施例一种基于人工智能的眼睑运动功能评估***,包括:受检对象获取模块、眼睛及指定部位定位模块、TSN模型、概率输出模块和评估模块。
受检对象获取模块:用于从输入的受检对象的面部动作视频中获得每帧受检对象的面部特征区域,剪去每帧非受检对象的面部特征区域,获得只包含受检对象的面部视频。
眼睛及指定部位定位模块:用于定位和图像处理面部视频的眼睛及指定部位,该指定部位有一种或多种对应受检对象的关键部位;裁剪生成受检对象的眼睛运动视频及指定部位联动视频。
基于卷积神经网络的TSN模型:用于处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号。
概率输出模块:将TSN输出的动作信号作为输入,用于输出每帧画面计算机判断眼睑运动异常出现的概率信号;眼睑运动异常出现的概率信号包括眼睑运动异常时眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号;
评估模块: 用于根据眼睛运动出现异常的概率信号、每个指定部位运动出现异常联动动作的概率信号和眼睑运动异常概率判断机制获得异常等级,判断受检对象的眼睑运动异常的严重程度。
受检对象获取模块包括:
Faster-RCNN神经网络模型,用于定位所述面部动作视频中每一帧受检对象的人脸区域,并将人脸区域逐帧输入至人脸识别模型;
人脸识别模型,包括左侧脸、正脸和右侧脸分类模型,用于识别每个人脸区域中不同方位的受检对象的面部特征。
眼睛及指定部位定位模块包括CPM的CNN结构、PAF的CNN结构和图像处理模块。
如图2所示,根据上述实施例的眼睑运动功能评估***进行评估的方法,包括以下步骤:
S1.将受检对象的面部动作视频导入或直接输入至受检对象获取模块。
面部动作视频的录制需要在受检对象处于自然状态、周边光线充足的环境下进行。将摄像头,不限手机摄像头、电脑摄像头、隐蔽摄像头置于一个合适高度位置上,使受检对象正对摄像头。对于隐蔽摄像头,主要安装在医生诊室或者候诊室,用于记录患者在候诊时和与医生交谈时的面部动作表情;对于手机或电脑前置摄像头,主要用于受检者在视近时的面部动作,可以用于医院和家中。对于使用拍摄且受检对象为儿童时,将手机置于合适的高度,打开相应的软件,根据软件指引调整受检对象的头部和与手机的距离,使得受检对象的面部正对手机前置摄像头,保证录像过程中受检者的脸位于手机屏幕正中央;此时点击软件的开始按键,软件播放一段动画,同时前置摄像头自动开始采集受检对象看手机时的视频,录制的面部动作视频的时长>5min。拍摄面部动作视频结束后,可导入或直接输入至承载实现本实施例的应用软件中的受检对象获取模块。
S2.通过检对象获取模块获得只包含受检对象的面部视频,具体包括以下步骤:
S21.通过受检对象获取模块的Faster-RCNN神经网络模型定位面部动作视频中每一帧受检对象的人脸区域,并将人脸区域逐帧输入至人脸识别模型。
其中,Faster-RCNN神经网络模型,是一种基于深度学习提取目标检测区域的神经网络模型,首先利用候选区域生成网络 (Region Proposal Network, RPN)提取人脸候选区域,然后对人脸候选区域进行卷积操作,提取人脸特征,最后利用联合训练的快速区域卷积神经网络(Fast R-CNN)进行人脸识别获得人脸区域。
S22.人脸识别模型每一帧人脸区域中不同方位的受检对象的面部特征。
本实施例的左侧脸、正脸和右侧脸分类模型已经对大量左侧脸、正脸和右侧脸的面部图像进行深度训练,能够识别不同方位的受检对象的面部特征。
S23. 对面部动作视频的每帧进行步骤S21和步骤S22,获得每帧受检对象的面部特征区域。
S24.受检对象获取模块剪去每帧非受检对象的面部特征区域,获得只包含受检对象的面部视频。
S3.通过眼睛及指定部位定位模块定位面部视频的眼睛及指定部位并裁剪生成眼睛运动视频及指定部位联动视频。指定部位包括头部、鼻部、嘴巴和眉毛。
眼睛及指定部位定位模块定位面部视频的头部、鼻部、嘴巴、眉毛和眼睛的具体方法为:
S31.通过CPM的CNN结构得到面部视频的眼睛与眉毛、鼻部、嘴巴的关节点的热图来判断关节点。
其中,CPM(Convolutional pose machines),是一种将深度学习应用于人体姿态分析的算法,该算法来源于Pose estimation,以学习图像特征和图像相关(image-depenent)的空间模型估计人体姿态。Pose estimation是一种全卷积网络,输入是一张人体姿势图,输出n张热图(heatmap),代表n个关节点(body part)的响应。本实施例的CPM的CNN结构已经过大量包括眼睛与眉毛、鼻部、嘴巴的彩***图像的深度训练,输入面部视频,可获得眼睛与眉毛、鼻部、嘴巴的关节点的热图。
S32.通过PAF的CNN结构得到2D的向量几何来编码面部视频的眉毛、鼻部和嘴巴的运动方向,定位出眉毛、鼻部和嘴巴。
其中,PAF(Part Affinity Fields),是一种应用于人体姿态估计的算法,能够从热图的关节点通过部位联系策略对关节点的位置和方向进行编码,实现2D的向量几何的编码和肢体的快速匹配,广泛应用于实时多人2D姿态估计。本实施例的CPM的CNN结构已经过大量视频和热图的训练,可从CPM的CNN结构获得的热图及关节点,通过2D的向量几何来编码面部视频的眉毛、鼻部和嘴巴。
S33.通过图像处理模块学习包含眼睛的视频,定位出眼睛;并截取出面部视频中眼睑闭合瞬间的图像,分析该图像中眼睑闭合的程度,并通过图片灰度处理技术将其眼睑部分与瞳孔部分进行处理。
图片灰度处理技术可采用浮点算法、整数方法、移位方法和平均值法中的任何一种方法,求得灰度值后,将原来的RGB格式图片中的R、G、B值统一替换成灰度值,即能获得灰度图。
S4.通过TSN模型处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号。
TSN模型处理眼睛运动视频和指定部位联动视频并输出动作信号的方法采取BN-inception v3卷积神经网络的基础框架进行实现,其具体方法为:
S41.从输入的眼睛运动视频和指定部位联动视频中稀疏采样生成一系列短片段作为输入;
S42.将短片段中合适大小的RGB格式图像和光流格式图像分别通过时间流卷积神经网络和空间流卷积神经网络进行卷积操作,获得眼睛及指定部位的动作信号,并将该动作信号进行输出。
TSN(Temporal Segment Network,时序分割网络)模型,用于视频中的动作识别,基于长范围时间结构(long-range temporal structure)建模,结合了稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-level supervision)来保证使用整段视频时学习得有效和高效。本实施例则通过TSN模型采用稀疏时间采样策略对眼睛运动视频和指定部位联动视频进行动作识别,通过时间流卷积神经网络和空间流卷积神经网络进行卷积操作,获得动作信号。
S5.将TSN输出的动作信号输入概率输出模块,输出每帧画面计算机判断眼睑运动异常出现的概率信号。
眼睑运动异常包括频繁眨眼>15次/min,或用力眨眼或眨眼时上下眼睑闭合不完全及伴随眉毛、额头、鼻翼及嘴巴这几个关键部位的联动动作,如嘴巴张大、眉毛紧皱等。
因此,眼睑运动异常出现的概率信号包括眼睑运动异常时眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号。
概率输出模块输出眼睑运动异常出现的概率信号的具体方法为:
S5.1 将TSN模型输出的动作信号作为输入,训练机器学习分类器,结合若干个短片段的类别得分输出以获得短片段之间关于类别假设的共识,获得段共识函数 G(Thesegmental consensus function),基于这个共识,预测函数 H 预测整段视频属于每个行为类别的概率信号;行为类别包括受检对象出现眼睑运动异常时眼睛出现异常动作的行为类别及每个指定部位出现异常联动动作的行为类别。
S5.2输出眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号。
S6.通过评估模块,根据眼睑运动异常出现的概率信号和眼睑运动异常概率判断机制获得异常等级,判断受检对象的眼睑运动异常的严重程度。
其中,眼睑运动异常等级判断机制包括眼睛运动判断机制和联动动作判断机制;
眼睛运动判断机制为设置阈值P信号将眼睛运动分为有异常和无异常两个等级,并与眼睛出现异常动作的概率信号对比;若眼睛出现异常动作的概率信号高于阈值P信号则为有异常等级;若眼睛出现异常动作的概率信号低于阈值P信号则为无异常等级;
当获得眼睛运动出现异常的判断机制的等级为有异常等级时,执行联动动作判断机制;
联动动作判断机制为设置每个指定部位运动异常的阈值信号,分为轻、重两个级别;若其中一个指定部位运动出现异常联动动作的概率信号高于该指定部位运动异常的阈值信号,则异常等级为轻级别,否则异常等级为重级别。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。
Claims (7)
1.一种基于人工智能的眼睑运动功能评估***,其特征在于,包括:
受检对象获取模块:用于从输入的受检对象的面部动作视频中获得每帧受检对象的面部特征区域,剪去每帧非所述受检对象的面部特征区域,获得只包含所述受检对象的面部视频;
眼睛及指定部位定位模块:用于定位和图像处理所述面部视频的眼睛及指定部位,该指定部位有一种或多种对应所述受检对象的关键部位;裁剪生成所述受检对象的眼睛运动视频及指定部位联动视频;所述指定部位和关键部位都包括头部、鼻部、嘴巴和眉毛;
基于卷积神经网络的TSN模型:用于处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号;
概率输出模块:将TSN输出的动作信号作为输入,用于输出每帧画面计算机判断眼睑运动异常出现的概率信号;所述眼睑运动异常出现的概率信号包括眼睑运动异常时眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号;所述概率输出模块输出眼睑运动异常出现的概率信号的具体方法为:(1)将TSN模型输出的动作信号作为输入,训练机器学习分类器,结合若干个短片段的类别得分输出以获得短片段之间关于类别假设的共识,获得段共识函数 G,基于这个共识,预测函数 H 预测整段视频属于眼睛及指定部位的每个行为类别的概率信号;所述行为类别包括所述受检对象出现眼睑运动异常时眼睛出现异常动作的行为类别及每个指定部位出现异常联动动作的行为类别;(2)输出眼睛出现异常动作的概率信号和每个指定部位出现异常联动动作的概率信号;
评估模块:用于根据眼睛运动出现异常的概率信号、每个指定部位运动出现异常联动动作的概率信号和眼睑运动异常概率判断机制获得异常等级,判断所述受检对象的眼睑运动异常的严重程度;
所述受检对象获取模块包括:
Faster-RCNN神经网络模型,用于定位所述面部动作视频中每一帧受检对象的人脸区域,并将人脸区域逐帧输入至人脸识别模型;
人脸识别模型,包括左侧脸、正脸和右侧脸分类模型,用于识别每个人脸区域中不同方位的受检对象的面部特征;
所述眼睛及指定部位定位模块包括CPM的CNN结构、PAF的CNN结构和图像处理模块。
2.根据权利要求1所述的一种基于人工智能的眼睑运动功能评估***,其特征在于:所述面部动作视频的时长≥5min。
3.根据权利要求1所述的一种基于人工智能的眼睑运动功能评估***,其特征在于:所述面部动作视频为受检对象的面部位于镜头中央的视频。
4.根据权利要求1所述的一种基于人工智能的眼睑运动功能评估***,其特征在于:所述从输入的受检对象的面部动作视频中获得每帧受检对象的面部特征区域的具体方法为:
(1)所述面部动作视频输入Faster-RCNN神经网络模型,定位所述面部动作视频中每一帧受检对象的人脸区域,并将每一帧的人脸区域输入至人脸识别模型;
(2)所述人脸识别模型识别每一帧人脸区域中不同方位的所述受检对象的面部特征;
(3)对面部动作视频的每帧进行步骤(1)和步骤(2),获得每帧受检对象的面部特征区域。
5.根据权利要求1所述的一种基于人工智能的眼睑运动功能评估***,其特征在于:所述定位所述面部视频的指定部位的具体方法为:
(1)通过CPM的CNN结构得到所述面部视频的眼睛与指定部位的关节点的热图来判断关节点;
(2)通过PAF的CNN结构得到2D的向量几何来编码所述面部视频的指定部位的运动方向,定位出指定部位;
(3)通过图像处理模块学习包含眼睛的视频,定位出眼睛;并截取出所述面部视频中眼睑闭合瞬间的图像,分析该图像中眼睑闭合的程度,通过图片灰度处理技术将其眼睑部分与瞳孔部分进行处理。
6.根据权利要求1所述的一种基于人工智能的眼睑运动功能评估***,其特征在于:所述TSN模型处理眼睛运动视频和指定部位联动视频并输出动作信号的方法采取BN-inception v3卷积神经网络的基础框架进行实现,其具体方法为:
(1)从输入的眼睛运动视频和指定部位联动视频中稀疏采样生成一系列短片段作为输入;
(2)将所述短片段中合适大小的RGB格式图像和光流格式图像分别通过时间流卷积神经网络和空间流卷积神经网络进行卷积操作,获得眼睛及指定部位的动作信号,并将该动作信号进行输出。
7.根据权利要求1-6任意一个权利要求所述的眼睑运动功能评估***进行评估的方法,包括以下步骤:
S1:通过受检对象获取模块从输入的受检对象的面部动作视频中获得只包含所述受检对象的面部视频;
S2:通过眼睛及指定部位定位模块定位所述面部视频的眼睛及指定部位,并裁剪生成所述受检对象的眼睛运动视频及指定部位联动视频;
S3:通过TSN模型处理眼睛运动视频和指定部位联动视频并输出眼睛及指定部位的动作信号;
S4:将TSN输出的动作信号输入概率输出模块,输出每帧画面计算机判断眼睑运动异常出现的概率信号;
S5:通过评估模块,根据眼睑运动异常出现的概率信号和眼睑运动异常概率判断机制获得异常等级,判断所述受检对象的眼睑运动异常的严重程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910704037.5A CN110428908B (zh) | 2019-07-31 | 2019-07-31 | 一种基于人工智能的眼睑运动功能评估*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910704037.5A CN110428908B (zh) | 2019-07-31 | 2019-07-31 | 一种基于人工智能的眼睑运动功能评估*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428908A CN110428908A (zh) | 2019-11-08 |
CN110428908B true CN110428908B (zh) | 2021-12-17 |
Family
ID=68413529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910704037.5A Active CN110428908B (zh) | 2019-07-31 | 2019-07-31 | 一种基于人工智能的眼睑运动功能评估*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428908B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128369A (zh) * | 2019-11-18 | 2020-05-08 | 创新工场(北京)企业管理股份有限公司 | 一种用于评估患者的帕金森病情的方法和装置 |
CN111243236A (zh) * | 2020-01-17 | 2020-06-05 | 南京邮电大学 | 一种基于深度学习的疲劳驾驶预警方法及*** |
CN112133391B (zh) * | 2020-09-17 | 2024-01-26 | 吾征智能技术(北京)有限公司 | 一种基于人体异常眉毛的疾病认知*** |
CN112163556A (zh) * | 2020-10-16 | 2021-01-01 | 苏州体素信息科技有限公司 | 一种基于深度学习算法的小儿视力障碍筛查***及方法 |
CN113569655A (zh) * | 2021-07-02 | 2021-10-29 | 广州大学 | 基于眼部色彩监控的红眼病患者识别*** |
CN113674507A (zh) * | 2021-08-18 | 2021-11-19 | 建信金融科技有限责任公司 | 婴儿监控方法、装置、计算机设备及计算机可读存储介质 |
CN113706564B (zh) * | 2021-09-23 | 2023-07-18 | 苏州大学 | 基于多种监督方式的睑板腺分割网络的训练方法及装置 |
CN116386106A (zh) * | 2023-03-16 | 2023-07-04 | 宁波星巡智能科技有限公司 | 伴睡婴幼儿时婴幼儿头部智能识别方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8952819B2 (en) * | 2013-01-31 | 2015-02-10 | Lytx, Inc. | Direct observation event triggering of drowsiness |
CN109344808A (zh) * | 2018-07-24 | 2019-02-15 | 中山大学中山眼科中心 | 一种基于深度学习的眼部图像处理*** |
CN109640785A (zh) * | 2016-04-08 | 2019-04-16 | 维扎瑞尔股份公司 | 用于获得、聚集和分析视觉数据以评估人的视力性能的方法和*** |
-
2019
- 2019-07-31 CN CN201910704037.5A patent/CN110428908B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8952819B2 (en) * | 2013-01-31 | 2015-02-10 | Lytx, Inc. | Direct observation event triggering of drowsiness |
CN109640785A (zh) * | 2016-04-08 | 2019-04-16 | 维扎瑞尔股份公司 | 用于获得、聚集和分析视觉数据以评估人的视力性能的方法和*** |
CN109344808A (zh) * | 2018-07-24 | 2019-02-15 | 中山大学中山眼科中心 | 一种基于深度学习的眼部图像处理*** |
Non-Patent Citations (2)
Title |
---|
"基于卷积神经网络的人眼状态检测";黄洁媛等;《扬州大学学报(自然科学版)》;20180831;第21卷(第3期);全文 * |
"基于眼动序列分析的眨眼检测";高宁等;《计算机工程与应用》;20190307;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110428908A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428908B (zh) | 一种基于人工智能的眼睑运动功能评估*** | |
CN113420624B (zh) | 一种非接触式疲劳检测方法及*** | |
CN111326253A (zh) | 自闭症谱系障碍患者的多模态情感认知能力的评估方法 | |
CN110335266B (zh) | 一种智能中医目诊图像处理方法及装置 | |
CN109712710B (zh) | 一种基于三维眼动特征的婴幼儿发育障碍智能评估方法 | |
CN108305680B (zh) | 基于多元生物学特征的智能帕金森症辅助诊断方法和装置 | |
Wang et al. | Screening early children with autism spectrum disorder via response-to-name protocol | |
CN110269587B (zh) | 婴幼儿动作分析***和基于动作的婴幼儿视力分析*** | |
CN107007257A (zh) | 面部不自然度的自动评级方法和装置 | |
CN112472089A (zh) | 一种基于眼动技术判断心理测试可靠性的***及方法 | |
CN109805944B (zh) | 一种儿童共情能力分析*** | |
Qin et al. | Improving reliability and accuracy of vibration parameters of vocal folds based on high-speed video and electroglottography | |
CN112890815A (zh) | 一种基于深度学习的孤独症辅助评估***和方法 | |
CN111523445B (zh) | 一种基于改进的Openpose模型和面部微表情的考试行为检测方法 | |
CN115299947A (zh) | 基于多模态生理数据的心理量表置信度评估方法及*** | |
CN115810004A (zh) | 一种光学相干断层扫描脉络膜血管分层造影方法 | |
CN109938727A (zh) | 非人灵长类动物三维视觉刺激实验***和方法 | |
CN117171658A (zh) | 一种基于脑智能技术的认知负荷评判方法 | |
CN114240934B (zh) | 一种基于肢端肥大症的图像数据分析方法及*** | |
CN115813343A (zh) | 儿童行为异常评估方法和*** | |
CN115444422A (zh) | 一种基于眼动数据的真实环境心理负荷评估方法和*** | |
Fedullo et al. | A machine learning approach for a vision-based van-herick measurement system | |
CN115661101A (zh) | 基于随机采样和深度学习的早产儿视网膜病变检测*** | |
CN115497621A (zh) | 一种老年人认知状况测评*** | |
CN111259743B (zh) | 一种近视图像深度学习识别模型训练方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |