发明内容
针对现有技术中的上述不足,本发明提供的基于目标检测网络与知识推理的人员行为意图识别方法可以对老人的行为进行识别,便于针对性关照。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于目标检测网络与知识推理的人员行为意图识别方法,其包括以下步骤:
S1、以三元组的形式构建面向人员生活场景的知识图谱;
S2、采集视频数据并进行预处理,得到预处理后的数据;
S3、将预处理后的数据输入至目标检测模型,获取预处理后的数据中的各类实体;各类实体包括人体和物体;
S4、根据人体和物体的位置区域特征构建关系特征,根据关系特征采用高斯混合模型得出物体与人体的位置关系;其中位置关系包括“在手中”、“从属关系”和“距离小于阈值”;
S5、将物体、人体和对应的位置关系构成三元组,将三元组输入知识图谱,得到初步确定的场景;
S6、通过人体关键点检测模型获取预处理后的数据中人体关键点特征信息;
S7、基于人体关键点特征信息对初步确定的场景进行推理,输出符合人体关键点特征信息的场景,并将输出的场景作为人员行为意图。
进一步地,步骤S1的具体方法为:
以“人-物-行为”构建三元组,以三元组为核心进行本体建模,搭建面向人员的生活场景的图谱基础架构;定义面向人员生活场景的物体概念,选取物体的视觉属性概念,明确物体间的相对位置关系,通过常识、场景图像和/或常用语义对图谱基础架构进行对象信息扩展,得到面向人员生活场景的知识图谱。
进一步地,步骤S2中预处理的具体方法为:
将视频数据处理成帧图像,并对帧图像进行去噪和压缩。
进一步地,步骤S3的具体方法为:
采用Mask R-CNN模型作为目标检测模型,将预处理后的数据输入至Mask R-CNN模型中,获取Mask R-CNN模型输出的各类实体。
进一步地,步骤S4的具体方法包括以下子步骤:
S4-1、获取实体λi的区域坐标(xi,yi)、宽度wi和高度hi,采用公式:
构建实体λi与人手λj的关系特征f(λi,λj);其中areai表示实体λi的面积;(xj,yj)、wj、hj和areaj分别为人手λj的区域坐标、宽度、高度和面积;实体包括水杯、书本、手机、烟、笔、筷子、菜刀、饭碗、扫帚、拖把、跳绳和牙刷;
S4-2、将关系特征f(λi,λj)输入高斯混合模型,获取实体λi与人手λj之间条件概率值最大的位置关系,并将其作为物体与人体的位置关系。
进一步地,步骤S4-2的具体方法包括以下子步骤:
S4-2-1、初始化高斯混合模型参数;
S4-2-2、基于当前参数,根据公式:
计算观测数据n来自子模型k的概率γ
jk;其中N表示观测数据的总数;K表示高斯混合模型中子模型的总数;α
k为观测数据属于子模型k的概率;φ(x
n|θ
k)为子模型k的高斯分布密度函数,
μ
k为子模型的数据期望,σ
k为子模型的数据方差;x
n表示观测数据n;
S4-2-3、根据公式:
更新参数μk、αk和∑k;其中(·)T表示转置;
S4-2-4、判断当前参数μk、αk和∑k是否均收敛,若是则进入步骤S4-2-5;否则返回步骤S4-2-2;
S4-2-5、根据公式:
获取实体λi与实体λj的关系特征f(λi,λj)的概率分布,并得到概率值最大的位置关系。
进一步地,步骤S6中人体关键点特征信息包括:
人体关键点及其对应的坐标数据,人体关键点包括:鼻子、脖子、右肩、右肘、右腕、左肩、左肘、左腕、右腰、右膝、右脚踝、左腰、左膝、左脚踝、右眼、左眼、右耳和左耳。
进一步地,步骤S7的具体方法包括以下子步骤:
S7-1、通过人体关键点的坐标数据和实体的位置获取实体处于人体的左侧或右侧,若处于人体左侧,则采用鼻子、左肩、左肘、左腕、左腰和左耳进行步骤S7-2和步骤S7-3的操作;若处于人体右侧,则采用鼻子、右肩、右肘、右腕、右腰和右耳进行步骤S7-2和步骤S7-3的操作;
S7-2、分别计算手肘的弯曲角度ang、手腕到鼻子的距离S1、手肘到手腕的距离S2、眼睛到手腕的距离S3、肩到腰的距离S4、手腕到耳朵的距离S5和肩到手腕的距离S6;其中手肘的弯曲角度为手肘到手腕与手肘到肩之间形成的夹角;
S7-3、若实体为水杯,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在喝水的场景,将该场景作为人员行为意图;
若实体为书本,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在看书的场景,将该场景作为人员行为意图;
若实体为手机,且手肘的弯曲角度小于90°、手腕到耳朵的距离小于手肘到手腕的距离,则推理出人在打电话的场景;
若实体为手机,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在玩手机的场景;
若实体为烟,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在抽烟的场景,将该场景作为人员行为意图;
若实体为笔,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在写字的场景,将该场景作为人员行为意图;
若实体为筷子,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在吃饭的场景,将该场景作为人员行为意图;
若实体为菜刀,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在切菜的场景,将该场景作为人员行为意图;
若实体为饭碗,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在洗碗的场景,将该场景作为人员行为意图;
若实体为扫帚,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在扫地的场景,将该场景作为人员行为意图;
若实体为拖把,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在拖地的场景,将该场景作为人员行为意图;
若实体为跳绳,且手肘的弯曲角度小于90°、肩到手腕的距离大于肩到腰的距离,则推理出人在跳绳的场景,将该场景作为人员行为意图;
若实体为牙刷,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离的一半,则推理出人在刷牙的场景,将该场景作为人员行为意图。
本发明的有益效果为:
1、将知识图谱和知识推理技术应用到人员行为意图识别中,通过知识推理挖掘场景图像中的隐含信息,进而获取人员的行为意图,利用人体关键点检测模型对人体特征信息参量进行分析计算,获得推理人员行为意图的条件。本发明可以对老人行为意图和需求做出判断,了解老人是否做到其想做的事,进一步还可以统计老人一天所做之事,便于对老人的行动或其他方面进行针对性关照。
2、在2D图像中,其坐标数据反映的是坐标在图像像素中的值,而不是现实中真实的数据,所以本发明将图像中的像素距离和角度比较作为判断条件,可以相比以往将现实的数据按比例映射到图像中获得的结论更加准确。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该基于目标检测网络与知识推理的人员行为意图识别方法包括以下步骤:
S1、以三元组的形式构建面向人员生活场景的知识图谱;
S2、采集视频数据并进行预处理,得到预处理后的数据;
S3、将预处理后的数据输入至目标检测模型,获取预处理后的数据中的各类实体;各类实体包括人体和物体;
S4、根据人体和物体的位置区域特征构建关系特征,根据关系特征采用高斯混合模型得出物体与人体的位置关系;其中位置关系包括“在手中”、“从属关系”和“距离小于阈值”;
S5、将物体、人体和对应的位置关系构成三元组,将三元组输入知识图谱,得到初步确定的场景;
S6、通过人体关键点检测模型获取预处理后的数据中人体关键点特征信息;
S7、基于人体关键点特征信息对初步确定的场景进行推理,输出符合人体关键点特征信息的场景,并将输出的场景作为人员行为意图。
步骤S1的具体方法为:以“人-物-行为”构建三元组,以三元组为核心进行本体建模,搭建面向人员的生活场景的图谱基础架构;定义面向人员生活场景的物体概念,选取物体的视觉属性概念,明确物体间的相对位置关系,通过常识、场景图像和/或常用语义对图谱基础架构进行对象信息扩展,得到面向人员生活场景的知识图谱。
步骤S2中预处理的具体方法为:将视频数据处理成帧图像,并对帧图像进行去噪和压缩。
步骤S3的具体方法为:采用Mask R-CNN模型作为目标检测模型,将预处理后的数据输入至Mask R-CNN模型中,获取Mask R-CNN模型输出的各类实体。
步骤S4的具体方法包括以下子步骤:
S4-1、获取实体λi的区域坐标(xi,yi)、宽度wi和高度hi,采用公式:
构建实体λi与人手λj的关系特征f(λi,λj);其中areai表示实体λi的面积;(xj,yj)、wj、hj和areaj分别为人手λj的区域坐标、宽度、高度和面积;实体包括水杯、书本、手机、烟、笔、筷子、菜刀、饭碗、扫帚、拖把、跳绳和牙刷;
S4-2、将关系特征f(λi,λj)输入高斯混合模型,获取实体λi与人手λj之间条件概率值最大的位置关系,并将其作为物体与人体的位置关系。
步骤S4-2的具体方法包括以下子步骤:
S4-2-1、初始化高斯混合模型参数;
S4-2-2、基于当前参数,根据公式:
计算观测数据n来自子模型k的概率γ
jk;其中N表示观测数据的总数;K表示高斯混合模型中子模型的总数;α
k为观测数据属于子模型k的概率;φ(x
n|θ
k)为子模型k的高斯分布密度函数,
μ
k为子模型的数据期望,σ
k为子模型的数据方差;x
n表示观测数据n;
S4-2-3、根据公式:
更新参数μk、αk和∑k;其中(·)T表示转置;
S4-2-4、判断当前参数μk、αk和∑k是否均收敛,若是则进入步骤S4-2-5;否则返回步骤S4-2-2;
S4-2-5、根据公式:
获取实体λi与实体λj的关系特征f(λi,λj)的概率分布,并得到概率值最大的位置关系。
步骤S6中人体关键点特征信息包括:人体关键点及其对应的坐标数据,人体关键点包括:鼻子、脖子、右肩、右肘、右腕、左肩、左肘、左腕、右腰、右膝、右脚踝、左腰、左膝、左脚踝、右眼、左眼、右耳和左耳。
步骤S7的具体方法包括以下子步骤:
S7-1、根据公式:
获取实体i的位置(xi,yi)与人体左半边的关键点的距离dis_sum_l和实体i的位置(xi,yi)与人体右半边的关键点的距离dis_sum_r;若dis_sum_l大于dis_sum_r,则表示实体i位于人体右侧,反之位于人体左侧;若处于人体左侧,则采用鼻子、左肩、左肘、左腕、左腰和左耳进行步骤S7-2和步骤S7-3的操作;若处于人体右侧,则采用鼻子、右肩、右肘、右腕、右腰右耳进行步骤S7-2和步骤S7-3的操作;其中(prjx,prjy)表示人体右半边的关键点的坐标,人体右半边的关键点为10个,分别是鼻子、脖子、右肩、右肘、右腕、右腰、右膝、右脚踝、右眼和右耳;(pljx,pljy)表示人体左半边的关键点的坐标,人体左半边的关键点为10个,分别是鼻子、脖子、左肩、左肘、左腕、左腰、左膝、左脚踝、左眼和左耳;
S7-2、分别计算手肘的弯曲角度ang、手腕到鼻子的距离S1、手肘到手腕的距离S2、眼睛到手腕的距离S3、肩到腰的距离S4、手腕到耳朵的距离S5和肩到手腕的距离S6;其中手肘的弯曲角度为手肘到手腕与手肘到肩之间形成的夹角;
S7-3、若实体为水杯,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在喝水的场景,将该场景作为人员行为意图;
若实体为书本,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在看书的场景,将该场景作为人员行为意图;
若实体为手机,且手肘的弯曲角度小于90°、手腕到耳朵的距离小于手肘到手腕的距离,则推理出人在打电话的场景;
若实体为手机,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在玩手机的场景;
若实体为烟,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在抽烟的场景,将该场景作为人员行为意图;
若实体为笔,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在写字的场景,将该场景作为人员行为意图;
若实体为筷子,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离,则推理出人在吃饭的场景,将该场景作为人员行为意图;
若实体为菜刀,且手肘的弯曲角度小于90°、眼睛到手腕的距离小于肩到腰的距离,则推理出人在切菜的场景,将该场景作为人员行为意图;
若实体为饭碗,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在洗碗的场景,将该场景作为人员行为意图;
若实体为扫帚,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在扫地的场景,将该场景作为人员行为意图;
若实体为拖把,且手肘的弯曲角度大于90°、眼睛到手腕的距离大于肩到腰的距离,则推理出人在拖地的场景,将该场景作为人员行为意图;
若实体为跳绳,且手肘的弯曲角度小于90°、肩到手腕的距离大于肩到腰的距离,则推理出人在跳绳的场景,将该场景作为人员行为意图;
若实体为牙刷,且手肘的弯曲角度小于90°、手腕到鼻子的距离小于手肘到手腕的距离的一半,则推理出人在刷牙的场景,将该场景作为人员行为意图。
在本发明的一个实施例中,针对特定的独居老人生活场景的知识图谱,定义知识推理的规则如下:
规则1:<(res,in,hand);(people,has,hand);推出(res,near,people)>;
规则2:<(res,near,people);(action,use,res);OpenPose condition推出(people,is,action)>。
其中,res指场景图像中的物体,此时若某物体在手中,则推出该物体靠近人。OpenPose condition是指根据人体关键点计算的特征信息参量判断结果获得的推理条件,规则2是在满足规则1的前提下,结合知识图谱中的其他知识,推出人具有某行为意图。定义好规则后,根据目标检测的结果搜索的关联知识作为先验知识,调用推理机进行前向推理,若符合规则便推出结论并在知识图谱中补全,最后输出推理出的人员行为意图结果。