CN115171335A - 一种融合图像和语音的独居老人室内安全保护方法及装置 - Google Patents
一种融合图像和语音的独居老人室内安全保护方法及装置 Download PDFInfo
- Publication number
- CN115171335A CN115171335A CN202210687087.9A CN202210687087A CN115171335A CN 115171335 A CN115171335 A CN 115171335A CN 202210687087 A CN202210687087 A CN 202210687087A CN 115171335 A CN115171335 A CN 115171335A
- Authority
- CN
- China
- Prior art keywords
- people
- old people
- recognition
- old
- living alone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 230000008451 emotion Effects 0.000 claims abstract description 27
- 238000012544 monitoring process Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/04—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
- G08B21/0407—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis
- G08B21/043—Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis detecting an emergency event, e.g. a fall
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Social Psychology (AREA)
- Child & Adolescent Psychology (AREA)
- Psychology (AREA)
- Molecular Biology (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Gerontology & Geriatric Medicine (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种融合图像和语音的独居老人室内安全保护方法,方法包括:获取居家环境下的监控视频数据,监控视频数据包括图像数据和语音数据;对图像数据进行人脸检测和人脸识别,判断得到居家环境人数以及身份认证;响应于判断为独居老人,对独居老人进行跌倒动作识别,得到独居老人跌倒识别结果;对语音数据进行云端语音识别处理,得到老人的情感分析结果;结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,得到老人状态分析结果;根据老人状态分析结果,向对应的终端或平台发送安全保护通知。本发明能够减少已有室内老人跌倒识别误报的情况,从而减少对老人亲属的影响以及社会医疗资源的浪费。
Description
技术领域
本发明涉及一种融合图像和语音的独居老人室内安全保护方法及装置,属于计算机视觉和语音处理技术领域。
背景技术
根据2020年第七次人口普查结果,中国60岁以上人口占18.7%,与2010年相比,上升超过5个百分点,人口老龄化进程进一步加深。数据显示,跌倒是我国伤害死亡的第四位原因,而在65岁以上的老年人中则为首位。除了导致死亡外,跌倒还可能会导致严重的损伤甚至是残疾。对于独居老人,能否及时发现其跌倒行为直接关系到生命安全。目前,由于医疗资源分布不均,现有的有限医疗资源不足以满足中国老人日常看护的需求。传统的以“医院”为核心的看护模式逐渐向“医院+家庭”的智慧模式进行转变。近年来,随着信息化进程加快,智能监控***不断得到发展和完善,许多家庭逐渐在家中安装摄像头,以确保家庭财产安全和生命安全。但是从应用场景来看,一旦发生检测的失误,则会影响老人家属的正常工作生活,并且造成医院等社会资源的浪费。
发明内容
随着语音技术的发展,运用语音技术结合图像进行双重验证则可以发挥出越来越重要的价值。
目前跌倒识别的研究主要集中在基于计算机视觉的方法。基于视觉的方法主要通过摄像头采集图像序列,利用图像处理技术对其进行分析。由于跌倒时身体姿势的变化与日常行为有很大不同,传统方法大多采用人体轮廓或外形等作为鉴别特征,再采用支持向量机(Support Vector Machine,SVM)来识别出跌倒行为。深度学习的方法可以主动学习图像序列中的时空特征,避免了复杂的特征提取和数据重建过程。将图像序列直接作为深度卷积神经网络的输入,使得其应用得到极大的扩展。基于视觉的方法,识别准确度高,但是其性能受光照影响较大。随着深度学习引起了人们的关注,越来越多的研究热点转向了基于深度学习的语音处理。深度学习模型一般是指更深层的结构模型,它比传统的浅层模型拥有更多层的非线性变换,在表达和建模能力上更加强大,相比于传统的高斯混合模型在复杂信号的处理上会更具优势。
本发明的目的在于克服现有技术中的不足,提供一种融合图像和语音的独居老人跌倒识别方法能够弥补现有跌倒识别***产生误报的情况,有效减少误报带来的社会资源的浪费。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,提供了一种独居老人室内安全保护方法,包括:
获取居家环境下的监控视频数据,其中所述监控视频数据包括图像数据和语音数据;
对图像数据进行人脸检测和人脸识别,判断得到居家环境人数以及身份认证;
响应于判断为独居老人,对独居老人进行跌倒动作识别,得到独居老人跌倒识别结果;
对语音数据进行云端语音识别处理,得到老人的情感分析结果;
结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,得到老人状态分析结果;
根据所述老人状态分析结果,向对应的终端或平台发送安全保护通知。
在一些实施例中,对语音数据进行云端语音识别处理,包括:
利用云端的语音处理对语音数据进行语音识别得到文本信息;
将文本信息中的词进行向量化表示,同时输入字词的位置信息,组合后得到最终的词向量;
将最终的词向量输入Transformer网络,利用多头自注意力机制丰富词语之间的关联,使得网络可以理解句子的语义和语法结构信息;输出层首先使用卷积操作进行特征的再提取,最后通过全连接层操作进行特征的融合,得到融合特征;
利用预训练好的老人情绪状态识别网络模型对融合特征进行识别得到情感分析结果。
在一些实施例中,对图像数据进行人脸检测和人脸识别,包括:
将监控视频中的图像序列输入YOLOv3人脸检测网络,标定出人脸区域坐标;
根据标定结果,确定居家环境内的人数;
当人数为1时,将标定的人脸区域进行对齐,利用训练好的ResNet进行特征提取;
利用ResNet提取本地人脸库的特征向量,计算检测目标和本地图像的特征向量的余弦相似度;
基于计算结果确定识别到的人脸是否为被监护的独居老人,当确定是被监护的独居老人时,进行跌倒行为识别。
在一些实施例中,结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,包括:
对语音判定、跌倒检测判定和身份识别进行加权融合,通过下式表示:
式(1)中,e(k)表示加权融合的老人是否需要救助的置信度,ei(k)包括情感分析、身份识别和跌倒检测在k时刻的置信度,ωi表示权重,包括情感分析、跌倒识别和身份认证的权重ω1,ω2,ω3,三种参数的权重比值由大到小的比值为ω1,ω2,ω3,并且ω1+ω2+ω3=1。
当检测到室内不止一个人并且识别为都是老人亲属则不进行老人状态分析。
当检测到室内不止一个人并且没有已认证的亲属时,则进行加权融合识别,此时ei(k)包括情感分析和身份识别在k时刻的置信度,ωi表示权重,包括情感分析的权重ω1和跌倒识别的权重ω2,此时ω1=0.3,ω2=0.7,ω3=0,若结果判定老人遇到怀有恶意的陌生人,将情况发送到亲属终端。
当检测到室内只有老人时,对老人进行加权融合识别,ei(k)包括情感分析、身份识别和跌倒检测在k时刻的置信度,ωi表示权重,包括情感分析、跌倒识别和身份认证的权重ω1,ω2,ω3,此时ω1=0.3,ω2=0.4,ω3=0.3,若判定为独居老人发生跌倒,则将室内情况通知到老人亲属终端以及医疗服务机构平台。
当居家环境人数为1时,得到独居老人跌倒识别结果,若判定独居老人跌倒则向亲属终端发送消息并通知医疗机构平台;当居家环境人数大于1,对视频中人员进行识别,如果人员不是已录入安全人员并且监测到老人异常情绪,则向亲属终端发送消息。
第二方面,本发明提供了一种独居老人室内安全保护装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
第三方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
与现有技术相比,本发明实施例所提供的一种融合图像和语音地室内老人安全保护方法及装置所达到的有益效果包括:
本发明获取居家环境下的监控视频,进行语音和图像的处理;基于监控视频的语音信息进行语音处理,监测室内老人的情绪状态;基于监控视频的图像信息进行人脸检测和跌倒动作识别,得到室内人数和独居老人跌倒识别结果;本发明能够确定监控视频中出现对象的人数和身份,能够做到室内老人的安全性进一步保障,同时减少误报率,增加结果可信度。
本发明将语音和图像的处理结果融合,对不同的情况进行不同的处理,能够做到针对性监护,进一步保障老人安全。
附图说明
图1是本发明实施例一提供的一种融合身份特征的独居老人跌倒识别方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1
一种独居老人室内安全保护方法,包括:
获取居家环境下的监控视频数据,其中所述监控视频数据包括图像数据和语音数据;
对图像数据进行人脸检测和人脸识别,判断得到居家环境人数以及身份认证;
响应于判断为独居老人,对独居老人进行跌倒动作识别,得到独居老人跌倒识别结果;
对语音数据进行云端语音识别处理,得到老人的情感分析结果;
结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,得到老人状态分析结果;
根据所述老人状态分析结果,向对应的终端或平台发送安全保护通知。
在一些实施例中,如图1所示,本发明实施提供了一种融合图像和语音的独居老人室内安全保护方法,包括:
步骤1:获取居家环境下的多个空间的监控视频,其中所述监控视频数据包括图像数据和语音数据;
步骤2:对图像数据进行人脸检测和人脸识别,判断得到居家环境人数以及身份认证;从而判断居家场景中是否为独居老人;
步骤2-1:将监控视频中的图像序列输入YOLOv3人脸检测网络,标定出人脸区域坐标;
根据标定结果,确定居家环境内的人数;
当人数为1时,将标定的人脸区域进行对齐,利用训练好的ResNet对其进行特征提取;
同样,利用ResNet提取本地人脸库的特征向量,计算检测目标和本地图像的特征向量的余弦相似度;
基于计算结果确定识别到的人脸是否为被监护的独居老人,当确定是被监护的独居老人时,进行跌倒行为识别。
步骤2-2:当人数为1时,将标定的人脸区域进行对齐,利用训练好的ResNet对其进行特征提取。
步骤2-3:利用ResNet提取本地人脸库的特征向量,计算检测目标和本地图像的特征向量的余弦相似度。
步骤2-4:将人脸区域坐标与关键点坐标输入到***,生成Detections类;利用卡尔曼滤波根据单个Detection生成的均值、方差、id,预测目标的下一个位置的跟踪框Tracks;使用匈牙利算法将预测后的Tracks和当前帧中的Detections进行匹配,根据匹配结果更新卡尔曼滤波的预测数据;如果跟踪框Tracks与Detection的马氏距离在阈值内,则两个ID关联,如果新获得的目标对象Detection无匹配的跟踪框Tracks,则产生新的Tracks。
步骤3:基于监控视频中的图像进行跌倒动作识别,得到独居老人的跌倒检测结果。
将每30帧图像序列输入到训练好的slowfast跌倒动作识别网络,提取该图像序列的时空特征,通过全连接层进行分类,得到针对特定监护对象的跌倒识别结果,跌倒为1,非跌倒为0,及跌倒置信度cA;所述训练好的跌倒动作识别网络通过训练公开跌倒数据集Le2i-Fall和FDD得到。
步骤4:对语音数据进行云端语音识别处理,得到老人的情感分析结果;
首先利用云端的语音处理对AI摄像头获取的语音信号进行语音识别得到文本信息;接着将词进行向量化表示,同时输入字词的位置信息,组合后得到最终的词向量;将最终的词向量输入Transformer网络,利用多头自注意力机制进一步丰富词语之间的关联,使得网络可以理解句子的语义和语法结构信息;输出层首先使用卷积操作进行特征的再提取,最后通过全连接层操作进行特征的融合;对大量的不同情感语句进行不同的标注,并将其作为训练样本进行训练,得到可识别老人情绪状态的网络模型;利用网络模型识别到痛苦、害怕和求救等信号。
步骤5:结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,得到老人状态分析结果;
根据所述老人状态分析结果,向对应的终端或平台发送安全保护通知。
当居家环境人数为1时,得到独居老人跌倒识别结果,若判定独居老人跌倒则向亲属终端发送消息并通知医疗机构平台;当居家环境人数大于1,对视频中人员进行识别,如果人员不是已录入安全人员并且监测到老人异常情绪,则向亲属终端发送消息。
当判定老人处于跌倒等异常状态,将跌倒情况发送至亲属手机端和医疗机构服务平台。
本实例获取居家环境下的监控视频,基于语音处理,监测室内老人的情感状态,当监测到老人的情感状态为恐惧、害怕和求救等信号时,对监控视频中的人员进行人脸检测和识别,若识别为独居老人并且发生跌倒,则将相关老人信息发送给亲属终端以及医院机构平台;若识别为室内有多人且为陌生人,同时老人为异常情绪,判定老人处于危险情况,将室内情况发送给亲属终端。
本实例将基于监控视频中的图像进行跌倒动作识别,得到居家老人跌倒识别结果;融合图像和语音进行验证,克服了误报产生的人力和社会医疗资源浪费的风险。
本实施例提供能够及时将跌倒情况发送至亲属手机端和医疗机构服务平台,具有响应迅速,报警及时等优势。
本实施例提供了一种融合图像和语音特征的室内老人安全保护***,包括:AI摄像头模块、数据处理分析模块和终端通讯模块。
AI摄像头模块用于人脸识别、老人动作行为分析和异常行为判别,AI摄像头通过人脸识别和跌倒动作识别网络判断居家老人的身份和动作异常,并通过对老人人脸的特定区域进行检测与跟踪,并将监测结果传输至数据融合分析模块。
数据融合分析模块用于对得到的语音和图像检测结果进行分析,判断老人当前状态,从而决定采取何种措施。
终端通讯模块,用于将识别到的居家老人跌倒情况发送至亲属手机端和医疗机构服务平台。
实施例2
第二方面,本实施例提供了一种独居老人室内安全保护装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
实施例3
第三方面,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种独居老人室内安全保护方法,其特征在于,包括:
获取居家环境下的监控视频数据,其中所述监控视频数据包括图像数据和语音数据;
对图像数据进行人脸检测和人脸识别,判断得到居家环境人数以及身份认证;
响应于判断为独居老人,对独居老人进行跌倒动作识别,得到独居老人跌倒识别结果;
对语音数据进行云端语音识别处理,得到老人的情感分析结果;
结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析,得到老人状态分析结果;
根据所述老人状态分析结果,向对应的终端或平台发送安全保护通知。
2.根据权利要求1所述的独居老人室内安全保护方法,其特征在于,对语音数据进行云端语音识别处理,包括:
利用云端的语音处理对语音数据进行语音识别得到文本信息;
将文本信息中的词进行向量化表示,同时输入字词的位置信息,组合后得到最终的词向量;
将最终的词向量输入Transformer网络,利用多头自注意力机制丰富词语之间的关联,使得网络可以理解句子的语义和语法结构信息;输出层首先使用卷积操作进行特征的再提取,最后通过全连接层操作进行特征的融合,得到融合特征;
利用预训练好的老人情绪状态识别网络模型对融合特征进行识别得到情感分析结果。
3.根据权利要求1所述的独居老人室内安全保护方法,其特征在于,对图像数据进行人脸检测和人脸识别,包括:
将监控视频中的图像序列输入YOLOv3人脸检测网络,标定出人脸区域坐标;
根据标定结果,确定居家环境内的人数;
当人数为1时,将标定的人脸区域进行对齐,利用训练好的ResNet进行特征提取;
利用ResNet提取本地人脸库的特征向量,计算检测目标和本地图像的特征向量的余弦相似度;
基于计算结果确定识别到的人脸是否为被监护的独居老人,当确定是被监护的独居老人时,进行跌倒行为识别。
5.根据权利要求4所述的独居老人室内安全保护方法,其特征在于,
当检测到室内不止一个人并且识别为都是老人亲属则不进行老人状态分析。
6.根据权利要求4所述的独居老人室内安全保护方法,其特征在于,
当检测到室内不止一个人并且没有已认证的亲属时,则进行加权融合识别,此时ei(k)包括情感分析和身份识别在k时刻的置信度,ωi表示权重,包括情感分析的权重ω1和跌倒识别的权重ω2,此时ω1=0.3,ω2=0.7,ω3=0,若结果判定老人遇到怀有恶意的陌生人,将情况发送到亲属终端。
7.根据权利要求4所述的独居老人室内安全保护方法,其特征在于,
当检测到室内只有老人时,对老人进行加权融合识别,ei(k)包括情感分析、身份识别和跌倒检测在k时刻的置信度,ωi表示权重,包括情感分析、跌倒识别和身份认证的权重ω1,ω2,ω3,此时ω1=0.3,ω2=0.4,ω3=0.3,若判定为独居老人发生跌倒,则将室内情况通知到老人亲属终端以及医疗服务机构平台。
8.一种独居老人室内安全保护装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210687087.9A CN115171335A (zh) | 2022-06-17 | 2022-06-17 | 一种融合图像和语音的独居老人室内安全保护方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210687087.9A CN115171335A (zh) | 2022-06-17 | 2022-06-17 | 一种融合图像和语音的独居老人室内安全保护方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115171335A true CN115171335A (zh) | 2022-10-11 |
Family
ID=83486292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210687087.9A Pending CN115171335A (zh) | 2022-06-17 | 2022-06-17 | 一种融合图像和语音的独居老人室内安全保护方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171335A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631063A (zh) * | 2023-05-31 | 2023-08-22 | 武汉星巡智能科技有限公司 | 基于用药行为识别的老人智能看护方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273864A (zh) * | 2017-06-22 | 2017-10-20 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于深度学习的人脸检测方法 |
CN109684987A (zh) * | 2018-12-19 | 2019-04-26 | 南京华科和鼎信息科技有限公司 | 一种基于证件的身份验证***及方法 |
CN112801000A (zh) * | 2021-02-05 | 2021-05-14 | 南京邮电大学 | 一种基于多特征融合的居家老人摔倒检测方法及*** |
CN112949369A (zh) * | 2020-11-17 | 2021-06-11 | 杭州电子科技大学 | 一种基于人机协同的海量人脸图库检索方法 |
CN112951240A (zh) * | 2021-05-14 | 2021-06-11 | 北京世纪好未来教育科技有限公司 | 模型训练、语音识别方法及装置、电子设备及存储介质 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN114469076A (zh) * | 2022-01-24 | 2022-05-13 | 南京邮电大学 | 一种融合身份特征的独居老人跌倒识别方法及*** |
-
2022
- 2022-06-17 CN CN202210687087.9A patent/CN115171335A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273864A (zh) * | 2017-06-22 | 2017-10-20 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于深度学习的人脸检测方法 |
CN109684987A (zh) * | 2018-12-19 | 2019-04-26 | 南京华科和鼎信息科技有限公司 | 一种基于证件的身份验证***及方法 |
CN112949369A (zh) * | 2020-11-17 | 2021-06-11 | 杭州电子科技大学 | 一种基于人机协同的海量人脸图库检索方法 |
CN112801000A (zh) * | 2021-02-05 | 2021-05-14 | 南京邮电大学 | 一种基于多特征融合的居家老人摔倒检测方法及*** |
CN112951240A (zh) * | 2021-05-14 | 2021-06-11 | 北京世纪好未来教育科技有限公司 | 模型训练、语音识别方法及装置、电子设备及存储介质 |
CN113822192A (zh) * | 2021-09-18 | 2021-12-21 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
CN114469076A (zh) * | 2022-01-24 | 2022-05-13 | 南京邮电大学 | 一种融合身份特征的独居老人跌倒识别方法及*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631063A (zh) * | 2023-05-31 | 2023-08-22 | 武汉星巡智能科技有限公司 | 基于用药行为识别的老人智能看护方法、装置及设备 |
CN116631063B (zh) * | 2023-05-31 | 2024-05-07 | 武汉星巡智能科技有限公司 | 基于用药行为识别的老人智能看护方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021169209A1 (zh) | 一种基于语音及图像特征的异常行为识别方法、装置及设备 | |
CN112364696B (zh) | 一种利用家庭监控视频提高家庭安全的方法及*** | |
US20220286438A1 (en) | Machine learning techniques for mitigating aggregate exposure of identifying information | |
Yang et al. | Detection of non‐suicidal self‐injury based on spatiotemporal features of indoor activities | |
CN111814725A (zh) | 一种基于cnn+lstm+mlp组合神经网络判断监控视频着火的预警方法 | |
CN111241883A (zh) | 防止远程被测人员作弊的方法和装置 | |
CN111227789A (zh) | 人体健康监护方法和装置 | |
Weinshall et al. | Beyond novelty detection: Incongruent events, when general and specific classifiers disagree | |
Hao et al. | An end-to-end human abnormal behavior recognition framework for crowds with mentally disordered individuals | |
CN115171335A (zh) | 一种融合图像和语音的独居老人室内安全保护方法及装置 | |
JP6621092B1 (ja) | 危険度判別プログラム及びシステム | |
Huang et al. | Detecting the instant of emotion change from speech using a martingale framework | |
WO2023284185A1 (en) | Updating method for similarity threshold in face recognition and electronic device | |
Deshan et al. | Smart snake identification system using video processing | |
CN110738077B (zh) | 一种异物检测方法及装置 | |
US11921831B2 (en) | Enrollment system with continuous learning and confirmation | |
JP7371595B2 (ja) | 装置、システム、方法およびプログラム | |
CN109522844B (zh) | 一种社交亲密度确定方法及*** | |
CN109509329B (zh) | 一种基于可穿戴设备的溺水报警方法及可穿戴设备 | |
CN114399816B (zh) | 社区火灾风险感知方法及装置 | |
KR102648004B1 (ko) | 폭력감지장치 및 방법, 이를 포함하는 스마트 폭력감시시스템 | |
WO2019187107A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Guo et al. | Design of a smart art classroom system based on Internet of Things | |
CN109815828A (zh) | 实现主动报警或求助行为检测控制的***及方法 | |
JP6739115B1 (ja) | 危険度判別プログラム及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |