CN115631155A

CN115631155A - 一种基于时空自注意力的骨骼疾病筛查方法

Info

Publication number: CN115631155A
Application number: CN202211261857.XA
Authority: CN
Inventors: 丁大伟; 谢俊杰; 高宇; 赵宇; 翟吉良; 李嘉浩; 高晨郜; 王峻晨
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-20

Abstract

本发明公开了一种基于时空自注意力的骨骼疾病筛查方法，包括：获取待测者运动状态下的视频流，存储为图像序列；使用目标检测网络在图像序列中进行人体检测，得到时序的人体图像；使用人体姿态估计网络对人体图像进行人体关键点的识别，得到人体关键点的2D坐标，构成2D人体姿态骨架关键点序列；使用多层全连接神经网络将2D人体姿态转换为3D人体姿态；利用基于时空自注意力机制的骨架异常检测网络对待测者进行行为分析，回归得到其为异常的概率值，实现对待测者是否患有骨骼疾病的判断。本发明相较于传统使用X光片或者CT检查的方法，大大节约了成本，减少了对待测者的射线影响。

Description

一种基于时空自注意力的骨骼疾病筛查方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于时空自注意力的骨骼疾病筛查方法。

背景技术

骨骼***疾病是一组涵盖颈胸背、腰骨盆、上下肢的涉及关节、长骨和脊柱的疾病，往往在婴幼儿或青少年起病并伴随终生。青少年骨骼***疾病可由先天性和后天性原因导致，包括斜颈、脊柱畸形、髋膝肘关节疾病、足部疾病等，以最为多见的脊柱畸形(包括脊柱侧凸和脊柱后凸畸形)为例，发病率高达10％。而传统使用X光片或者CT检查的方法，成本较高，且有射线影响。

发明内容

本发明提供了一种基于时空自注意力的骨骼疾病筛查方法，以解决传统使用X光片或者CT检查的方法，成本较高，且有射线影响的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于时空自注意力的骨骼疾病筛查方法，包括：

获取待测者运动状态下的视频流，将所述视频流存储为预设格式的图像序列；

使用目标检测网络在所述图像序列中进行人体检测，得到时序的人体图像；

使用人体姿态估计网络对所述时序的人体图像进行人体关键点的识别，得到预设类型的人体关键点的2D坐标，构成2D人体姿态骨架关键点序列；

使用多层全连接神经网络将所述2D人体姿态骨架关键点序列转换为3D人体姿态骨架关键点序列；

利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析，回归得到待测者行为异常的概率值，实现对待测者是否患有骨骼疾病的判断。

进一步地，所述获取待测者运动状态下的视频流，将所述视频流存储为预设格式的图像序列，包括：

通过单目摄像头获取待测者运动状态下的视频流，将视频流传输到计算机；

计算机将所述视频流使用OpenCV开源图像工具进行预处理，即将视频存储为帧率不低于30FPS和图像分辨率不低于640*480的RGB编码格式。

进一步地，所述目标检测网络为Yolov3网络；

所述目标检测网络首先对输入的图像进行特征提取，得到三个尺度的特征图，根据特征图回归得到人体在图像上的包围框坐标，根据包围框坐标将人体图像从图像序列中提取出来；其中，特征图的尺度包括13*13、26*26以及52*52。

进一步地，所述人体姿态估计网络采用AlphaPose人体姿态估计网络；

所述人体姿态估计网络在人体图像上首先使用卷积网络进行特征提取，得到关键点的热力图，在热力图上回归得到的2D人体关键点；其中，所述2D人体关键点包括：脊柱基部、脊柱中位、脖子、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左臀部、左膝、左脚踝、左脚、右臀部、右膝、右脚踝、右脚、脊柱上部、左手尖、左手拇指、右手尖以及右手拇指。

进一步地，多层全连接神经网络的节点数目为1024，并采用残差连接结构。

进一步地，在利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析时，对输入的3D人体姿态骨架关键点序列数据在时间上进行空洞采样，根据采样后获得的序列数据进行行为分析。

进一步地，所述基于时空自注意力机制的骨架异常检测网络包括空间自注意力模块和时间自注意力模块；其中，

所述空间自注意力模块通过将不同帧同一关键点的信息进行聚合生成高维嵌入信息，加上一个可学习的分类嵌入模块，使用多头注意力机制和残差结构完成对于人体姿态空间特征的学习；

所述时间自注意力模块将每一帧的关键点信息视为一个数据块，同时进行分类嵌入和位置编码，将编码后的每一帧高维嵌入信息送入和所述空间自注意力模块一样的包含ReLU激活函数、多头注意力层和层归一化的网络模型，学习得到人体姿态的时间特征。

进一步地，所述利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析，回归得到待测者行为异常的概率值，实现对待测者是否患有骨骼疾病的判断，包括：

将所述3D人体姿态骨架关键点序列输入基于时空自注意力机制的骨架异常检测网络，利用所述空间自注意力模块完成对于人体姿态空间特征的学习，利用所述时间自注意力模块完成对于人体姿态时间特征的学习；

将所述时间自注意力模块得到的时间特征信息和所述空间自注意力模块得到的空间特征信息进行拼接，然后采用多层感知机回归得到异常概率值；

将所述异常概率值和预设阈值相比，得到待测者为正常或异常的分类结果。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明提供了一种基于时空自注意力的骨骼疾病筛查方法，通过单目摄像头采集到运动状态下待测者的视频，将视频存储为RGB格式的视频序列。首先使用目标检测算法获取到人体的目标框，随后使用人体姿态估计算法回归得到人体关键点的2D坐标，使用全连接神经网络将2D人体关键点坐标映射到3D空间，建立人体关键点铰链模型和时序人体骨架信息。最后使用基于时空自注意力机制的行为识别算法，预测待测者是否患有青少年骨骼疾病的概率。本发明用于青少年骨骼疾病预筛查，可以有效地完成大范围的快速筛查任务。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于时空自注意力的骨骼疾病筛查方法框架图；

图2是本发明实施例提供的基于时空自注意力的骨骼疾病筛查方法流程图；

图3是本发明实施例提供的时空自注意力网络模型图；

图4是本发明实施例提供的时空自注意力的实现框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

首先，需要说明的是，由于青少年骨骼***疾病多具备早期形态或运动相关体征。通过图像识别采集姿势、形态特征等具备骨骼***疾病早期筛查作用的相关数据。将这些数据导入机器学习算法，可对青少年骨骼***的异常体征进行识别，生成对于骨骼疾病的综合分析，从而为青少年骨骼***疾病的早期发现提供参考依据。基于此，针对现在青少年骨骼疾病高发以及传统的筛查方法成本高、效率低的问题，本实施例提供了一种基于时空自注意力的骨骼疾病筛查方法，可以对待测者进行动作分析，判断待测者是否患有骨骼***相关疾病，可用于青少年骨骼疾病筛查，该方法可以由电子设备实现。

本方法主要是面向青少年的骨骼疾病早期的预筛查，达到早发现早治疗的目的，如图1所示，本方法包含视频采集、人体检测、姿态估计、动作识别和异常概率值回归五部分。该方法首先通过一个单目摄像头采集待测者运动状态下的视频，存储为RGB编码格式的图片序列，使用人体目标检测算法将人体图像从采集到的视频中提取出来，构成人体图像序列，随后利用人体姿态估计算法得到人体关键点的坐标数据，最后使用基于时空自注意力的人体行为识别算法提取人体行为特征，然后根据人体行为特征回归得到是否患有骨骼疾病的异常概率值。根据概率值即可判断待测者是否患有骨骼***相关的疾病。

具体地，本方法的执行流程如图2所示，包括以下步骤：

S1，获取待测者运动状态下的视频流，将所述视频流存储为预设格式的图像序列；

具体地，在本实施例中，上述S1的实现过程如下：

通过单目摄像头获取待测者运动状态下的视频流，将视频流传输到计算机；计算机将所述视频流使用OpenCV开源图像工具进行预处理，即将视频存储为帧率不低于30FPS和图像分辨率不低于640*480的RGB编码格式的图像序列。

S2，使用目标检测网络在所述图像序列中进行人体检测，得到时序的人体图像；

具体地，在本实施例中，所述目标检测网络为Yolov3目标检测网络，该目标检测网络采用coco目标检测开源数据集中的人体检测部分进行训练；所述目标检测网络首先对输入的图像进行特征提取，得到三个尺度(13*13、26*26、52*52)的特征图，根据特征图回归得到人体在图像上的包围框坐标(x,y,w,h)，根据包围框坐标(x,y,w,h)即可将人体图像从图像序列中提取出来，形成人体图像序列。

S3，使用人体姿态估计网络对所述时序的人体图像进行人体关键点的识别，得到预设类型的人体关键点的2D坐标，构成2D人体姿态骨架关键点序列；

具体地，在本实施例中，所述人体姿态估计网络采用AlphaPose人体姿态估计网络，使用MSCOCO开源数据集进行训练；所述人体姿态估计网络在人体图像上首先使用卷积网络进行特征提取，得到关键点的热力图，在热力图上回归得到的2D人体关键点，共有25个，分别为：脊柱基部、脊柱中位、脖子、头、左肩、左肘、左腕、左手、右肩、右肘、右腕、右手、左臀部、左膝、左脚踝、左脚、右臀部、右膝、右脚踝、右脚、脊柱上部、左手尖、左手拇指、右手尖以及右手拇指。关键点坐标以其在人体图像中的像素位置(x,y)存储。

S4，使用多层全连接神经网络将所述2D人体姿态骨架关键点序列转换为3D人体姿态骨架关键点序列；

具体地，在本实施例中，所述多层全连接神经网络的节点数目为1024，并采用了残差连接结构，使用Human3.6M数据集训练完成。采用一个多层的全连接网络将25*2的2D坐标数据转换为25*3的3D坐标，得到3D的人体姿态。

S5，利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析，回归得到待测者行为异常的概率值，实现对待测者是否患有骨骼疾病的判断。

其中，注意力模块的网络模框架如图3所示，L表示模块叠加的数量；

具体地，在本实施例中，在利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析时，对输入的3D人体姿态骨架关键点序列数据在时间上进行空洞采样，根据采样后获得的序列数据进行行为分析，以减少计算量，提高计算的速度。

所述空间自注意力模块通过将不同帧同一关键点的信息进行聚合生成高维嵌入信息，加上一个可学习的分类嵌入模块(空间Token)，使用多头注意力机制和残差结构完成对于人体姿态空间特征的学习；

所述时间自注意力模块将每一帧的关键点信息视为一个数据块，同时进行分类嵌入(时间Token)和位置编码，将编码后的每一帧高维嵌入信息送入和所述空间自注意力模块一样的包含ReLU激活函数、多头注意力层和层归一化的网络模型，学习得到人体姿态的时间特征。

基于上述，如图4所示，所述利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析，回归得到待测者行为异常的概率值，实现对待测者是否患有骨骼疾病的判断，包括：

将3D人体姿态骨架关键点序列输入基于时空自注意力机制的骨架异常检测网络，利用空间自注意力模块完成对于人体姿态空间特征的学习，利用时间自注意力模块完成对于人体姿态时间特征的学习；从而将3D人体姿态在时间和空间维度上分别应用自注意力机制，得到时间维度和空间维度上的行为特征；

将所述时间自注意力模块得到的时间特征信息和所述空间自注意力模块得到的空间特征信息进行拼接，在将两种特征拼接在一起之后，使用一个线性的全连接回归头即可得到最后的异常概率值；

将所述异常概率值和预设阈值相比就可以作为待测者是否患有骨骼疾病的判断依据；其中，J表示关键点的数量，f表示采样后帧的数量，n为采样前帧的数量，C_T、C_S分别表示时间和空间上特征的长度。

综上，本实施例提供了一种基于时空自注意力的骨骼疾病筛查方法，通过单目摄像头采集到运动状态下待测者的视频，将视频存储为RGB格式的视频序列。首先使用目标检测算法获取到人体的目标框，随后使用人体姿态估计算法回归得到人体关键点的2D坐标，使用全连接神经网络将2D人体关键点坐标映射到3D空间，建立人体关键点铰链模型和时序人体骨架信息。最后使用基于时空自注意力机制的行为识别算法，预测待测者是否患有青少年骨骼疾病的概率。本方法用于青少年骨骼疾病预筛查，可以有效地完成大范围的快速筛查任务。

第二实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第三实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于时空自注意力的骨骼疾病筛查方法，其特征在于，包括：

2.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述获取待测者运动状态下的视频流，将所述视频流存储为预设格式的图像序列，包括：

3.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述目标检测网络为Yolov3网络；

4.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述人体姿态估计网络采用AlphaPose人体姿态估计网络；

5.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述多层全连接神经网络的节点数目为1024，并采用残差连接结构。

6.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，在利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析时，对输入的3D人体姿态骨架关键点序列数据在时间上进行空洞采样，根据采样后获得的序列数据进行行为分析。

7.如权利要求1所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述基于时空自注意力机制的骨架异常检测网络包括空间自注意力模块和时间自注意力模块；其中，

8.如权利要求7所述的基于时空自注意力的骨骼疾病筛查方法，其特征在于，所述利用基于时空自注意力机制的骨架异常检测网络，根据所述3D人体姿态骨架关键点序列，对待测者进行行为分析，回归得到待测者行为异常的概率值，实现对待测者是否患有骨骼疾病的判断，包括：