CN115171335A

CN115171335A - 一种融合图像和语音的独居老人室内安全保护方法及装置

Info

Publication number: CN115171335A
Application number: CN202210687087.9A
Authority: CN
Inventors: 李晓飞; 钱庆庆
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-10-11

Abstract

本发明公开了一种融合图像和语音的独居老人室内安全保护方法，方法包括：获取居家环境下的监控视频数据，监控视频数据包括图像数据和语音数据；对图像数据进行人脸检测和人脸识别，判断得到居家环境人数以及身份认证；响应于判断为独居老人，对独居老人进行跌倒动作识别，得到独居老人跌倒识别结果；对语音数据进行云端语音识别处理，得到老人的情感分析结果；结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析，得到老人状态分析结果；根据老人状态分析结果，向对应的终端或平台发送安全保护通知。本发明能够减少已有室内老人跌倒识别误报的情况，从而减少对老人亲属的影响以及社会医疗资源的浪费。

Description

一种融合图像和语音的独居老人室内安全保护方法及装置

技术领域

本发明涉及一种融合图像和语音的独居老人室内安全保护方法及装置，属于计算机视觉和语音处理技术领域。

背景技术

根据2020年第七次人口普查结果，中国60岁以上人口占18.7％，与2010年相比，上升超过5个百分点，人口老龄化进程进一步加深。数据显示，跌倒是我国伤害死亡的第四位原因，而在65岁以上的老年人中则为首位。除了导致死亡外，跌倒还可能会导致严重的损伤甚至是残疾。对于独居老人，能否及时发现其跌倒行为直接关系到生命安全。目前，由于医疗资源分布不均，现有的有限医疗资源不足以满足中国老人日常看护的需求。传统的以“医院”为核心的看护模式逐渐向“医院+家庭”的智慧模式进行转变。近年来，随着信息化进程加快，智能监控***不断得到发展和完善，许多家庭逐渐在家中安装摄像头，以确保家庭财产安全和生命安全。但是从应用场景来看，一旦发生检测的失误，则会影响老人家属的正常工作生活，并且造成医院等社会资源的浪费。

发明内容

随着语音技术的发展，运用语音技术结合图像进行双重验证则可以发挥出越来越重要的价值。

目前跌倒识别的研究主要集中在基于计算机视觉的方法。基于视觉的方法主要通过摄像头采集图像序列，利用图像处理技术对其进行分析。由于跌倒时身体姿势的变化与日常行为有很大不同，传统方法大多采用人体轮廓或外形等作为鉴别特征，再采用支持向量机(Support Vector Machine,SVM)来识别出跌倒行为。深度学习的方法可以主动学习图像序列中的时空特征，避免了复杂的特征提取和数据重建过程。将图像序列直接作为深度卷积神经网络的输入，使得其应用得到极大的扩展。基于视觉的方法，识别准确度高，但是其性能受光照影响较大。随着深度学习引起了人们的关注，越来越多的研究热点转向了基于深度学习的语音处理。深度学习模型一般是指更深层的结构模型，它比传统的浅层模型拥有更多层的非线性变换，在表达和建模能力上更加强大，相比于传统的高斯混合模型在复杂信号的处理上会更具优势。

本发明的目的在于克服现有技术中的不足，提供一种融合图像和语音的独居老人跌倒识别方法能够弥补现有跌倒识别***产生误报的情况，有效减少误报带来的社会资源的浪费。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，提供了一种独居老人室内安全保护方法，包括：

获取居家环境下的监控视频数据，其中所述监控视频数据包括图像数据和语音数据；

对图像数据进行人脸检测和人脸识别，判断得到居家环境人数以及身份认证；

响应于判断为独居老人，对独居老人进行跌倒动作识别，得到独居老人跌倒识别结果；

对语音数据进行云端语音识别处理，得到老人的情感分析结果；

结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析，得到老人状态分析结果；

根据所述老人状态分析结果，向对应的终端或平台发送安全保护通知。

在一些实施例中，对语音数据进行云端语音识别处理，包括：

利用云端的语音处理对语音数据进行语音识别得到文本信息；

将文本信息中的词进行向量化表示，同时输入字词的位置信息，组合后得到最终的词向量；

将最终的词向量输入Transformer网络，利用多头自注意力机制丰富词语之间的关联，使得网络可以理解句子的语义和语法结构信息；输出层首先使用卷积操作进行特征的再提取，最后通过全连接层操作进行特征的融合，得到融合特征；

利用预训练好的老人情绪状态识别网络模型对融合特征进行识别得到情感分析结果。

在一些实施例中，对图像数据进行人脸检测和人脸识别，包括：

将监控视频中的图像序列输入YOLOv3人脸检测网络，标定出人脸区域坐标；

根据标定结果，确定居家环境内的人数；

当人数为1时，将标定的人脸区域进行对齐，利用训练好的ResNet进行特征提取；

利用ResNet提取本地人脸库的特征向量，计算检测目标和本地图像的特征向量的余弦相似度；

基于计算结果确定识别到的人脸是否为被监护的独居老人，当确定是被监护的独居老人时，进行跌倒行为识别。

在一些实施例中，结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析，包括：

对语音判定、跌倒检测判定和身份识别进行加权融合，通过下式表示：

式(1)中，e(k)表示加权融合的老人是否需要救助的置信度，e_i(k)包括情感分析、身份识别和跌倒检测在k时刻的置信度，ω_i表示权重，包括情感分析、跌倒识别和身份认证的权重ω₁，ω₂，ω₃，三种参数的权重比值由大到小的比值为ω₁，ω₂，ω₃，并且ω₁+ω₂+ω₃＝1。

当检测到室内不止一个人并且识别为都是老人亲属则不进行老人状态分析。

当检测到室内不止一个人并且没有已认证的亲属时，则进行加权融合识别，此时e_i(k)包括情感分析和身份识别在k时刻的置信度，ω_i表示权重，包括情感分析的权重ω₁和跌倒识别的权重ω₂，此时ω₁＝0.3，ω₂＝0.7，ω₃＝0，若结果判定老人遇到怀有恶意的陌生人，将情况发送到亲属终端。

当检测到室内只有老人时，对老人进行加权融合识别，e_i(k)包括情感分析、身份识别和跌倒检测在k时刻的置信度，ω_i表示权重，包括情感分析、跌倒识别和身份认证的权重ω₁，ω₂，ω₃，此时ω₁＝0.3，ω₂＝0.4，ω₃＝0.3，若判定为独居老人发生跌倒，则将室内情况通知到老人亲属终端以及医疗服务机构平台。

当居家环境人数为1时，得到独居老人跌倒识别结果，若判定独居老人跌倒则向亲属终端发送消息并通知医疗机构平台；当居家环境人数大于1，对视频中人员进行识别，如果人员不是已录入安全人员并且监测到老人异常情绪，则向亲属终端发送消息。

第二方面，本发明提供了一种独居老人室内安全保护装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明实施例所提供的一种融合图像和语音地室内老人安全保护方法及装置所达到的有益效果包括：

本发明获取居家环境下的监控视频，进行语音和图像的处理；基于监控视频的语音信息进行语音处理，监测室内老人的情绪状态；基于监控视频的图像信息进行人脸检测和跌倒动作识别，得到室内人数和独居老人跌倒识别结果；本发明能够确定监控视频中出现对象的人数和身份，能够做到室内老人的安全性进一步保障，同时减少误报率，增加结果可信度。

本发明将语音和图像的处理结果融合，对不同的情况进行不同的处理，能够做到针对性监护，进一步保障老人安全。

附图说明

图1是本发明实施例一提供的一种融合身份特征的独居老人跌倒识别方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例1

一种独居老人室内安全保护方法，包括：

在一些实施例中，如图1所示，本发明实施提供了一种融合图像和语音的独居老人室内安全保护方法，包括：

步骤1：获取居家环境下的多个空间的监控视频，其中所述监控视频数据包括图像数据和语音数据；

步骤2：对图像数据进行人脸检测和人脸识别，判断得到居家环境人数以及身份认证；从而判断居家场景中是否为独居老人；

步骤2-1：将监控视频中的图像序列输入YOLOv3人脸检测网络，标定出人脸区域坐标；

根据标定结果，确定居家环境内的人数；

当人数为1时，将标定的人脸区域进行对齐，利用训练好的ResNet对其进行特征提取；

同样，利用ResNet提取本地人脸库的特征向量，计算检测目标和本地图像的特征向量的余弦相似度；

步骤2-2：当人数为1时，将标定的人脸区域进行对齐，利用训练好的ResNet对其进行特征提取。

步骤2-3：利用ResNet提取本地人脸库的特征向量，计算检测目标和本地图像的特征向量的余弦相似度。

步骤2-4：将人脸区域坐标与关键点坐标输入到***，生成Detections类；利用卡尔曼滤波根据单个Detection生成的均值、方差、id，预测目标的下一个位置的跟踪框Tracks；使用匈牙利算法将预测后的Tracks和当前帧中的Detections进行匹配，根据匹配结果更新卡尔曼滤波的预测数据；如果跟踪框Tracks与Detection的马氏距离在阈值内，则两个ID关联，如果新获得的目标对象Detection无匹配的跟踪框Tracks，则产生新的Tracks。

步骤3：基于监控视频中的图像进行跌倒动作识别，得到独居老人的跌倒检测结果。

将每30帧图像序列输入到训练好的slowfast跌倒动作识别网络，提取该图像序列的时空特征，通过全连接层进行分类，得到针对特定监护对象的跌倒识别结果，跌倒为1，非跌倒为0，及跌倒置信度c_A；所述训练好的跌倒动作识别网络通过训练公开跌倒数据集Le2i-Fall和FDD得到。

步骤4：对语音数据进行云端语音识别处理，得到老人的情感分析结果；

首先利用云端的语音处理对AI摄像头获取的语音信号进行语音识别得到文本信息；接着将词进行向量化表示，同时输入字词的位置信息，组合后得到最终的词向量；将最终的词向量输入Transformer网络，利用多头自注意力机制进一步丰富词语之间的关联，使得网络可以理解句子的语义和语法结构信息；输出层首先使用卷积操作进行特征的再提取，最后通过全连接层操作进行特征的融合；对大量的不同情感语句进行不同的标注，并将其作为训练样本进行训练，得到可识别老人情绪状态的网络模型；利用网络模型识别到痛苦、害怕和求救等信号。

步骤5：结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析，得到老人状态分析结果；

当判定老人处于跌倒等异常状态，将跌倒情况发送至亲属手机端和医疗机构服务平台。

本实例获取居家环境下的监控视频，基于语音处理，监测室内老人的情感状态，当监测到老人的情感状态为恐惧、害怕和求救等信号时，对监控视频中的人员进行人脸检测和识别，若识别为独居老人并且发生跌倒，则将相关老人信息发送给亲属终端以及医院机构平台；若识别为室内有多人且为陌生人，同时老人为异常情绪，判定老人处于危险情况，将室内情况发送给亲属终端。

本实例将基于监控视频中的图像进行跌倒动作识别，得到居家老人跌倒识别结果；融合图像和语音进行验证，克服了误报产生的人力和社会医疗资源浪费的风险。

本实施例提供能够及时将跌倒情况发送至亲属手机端和医疗机构服务平台，具有响应迅速，报警及时等优势。

本实施例提供了一种融合图像和语音特征的室内老人安全保护***，包括：AI摄像头模块、数据处理分析模块和终端通讯模块。

AI摄像头模块用于人脸识别、老人动作行为分析和异常行为判别，AI摄像头通过人脸识别和跌倒动作识别网络判断居家老人的身份和动作异常，并通过对老人人脸的特定区域进行检测与跟踪，并将监测结果传输至数据融合分析模块。

数据融合分析模块用于对得到的语音和图像检测结果进行分析，判断老人当前状态，从而决定采取何种措施。

终端通讯模块，用于将识别到的居家老人跌倒情况发送至亲属手机端和医疗机构服务平台。

实施例2

第二方面，本实施例提供了一种独居老人室内安全保护装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种独居老人室内安全保护方法，其特征在于，包括：

2.根据权利要求1所述的独居老人室内安全保护方法，其特征在于，对语音数据进行云端语音识别处理，包括：

3.根据权利要求1所述的独居老人室内安全保护方法，其特征在于，对图像数据进行人脸检测和人脸识别，包括：

根据标定结果，确定居家环境内的人数；

4.根据权利要求1所述的独居老人室内安全保护方法，其特征在于，结合居家环境人数以及身份认证、老人跌倒识别结果和情感分析结果对老人状态进行综合分析，包括：

5.根据权利要求4所述的独居老人室内安全保护方法，其特征在于，

6.根据权利要求4所述的独居老人室内安全保护方法，其特征在于，

7.根据权利要求4所述的独居老人室内安全保护方法，其特征在于，

8.一种独居老人室内安全保护装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。