CN112270213A

CN112270213A - 一种基于注意力机制的改进HRnet

Info

Publication number: CN112270213A
Application number: CN202011084171.9A
Authority: CN
Inventors: 王聪; 乔元风; 蒋伟; 柯钦瑜; 黄勇; 李紫薇
Original assignee: Xuanwei Beijing Biotechnology Co ltd
Current assignee: Xuanwei Beijing Biotechnology Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-26

Abstract

一种基于注意力机制的改进HRnet模型，其特征在于：当输入F作为输入特征图时，增加注意力机制模块，并对注意力机制模块进行以下2个操作：

采用上述技术方案的本发明，具有以下有益效果：本发明专利在原有的HRnet模型基础之上，增加注意力机制模型，使得改进后的HRNet用于心肺复苏按压动作过程中的人体姿态检测，以及为心肺复苏医学考核中假人胸部，头部等实例分割模型提供精确的主干网络，提高了模型的检测精度。

Description

一种基于注意力机制的改进HRnet

技术领域

本发明涉及一种改进型算法，具体涉及一种基于注意力机制的改进HRnet模型。

背景技术

心脏骤停严重威胁人们的生命健康，开展优质的心肺复苏（CPR,cardiopulmonary resuscitation）可显著提升患者存活率，同时也是挽救患者生命的重要手段。美国心脏协会（AHA, American Heart Association）和国际复苏联络委员会（ILCOR,International Liaision Committee on Resuscitation）将高质量的心肺复苏术作为复苏的核心[1]。目前常规的心肺复苏训练、考核方式为应用医学模拟人并由裁判打分评判。这样做存在几个弊端，比如考官评判主观性强，不够客观；在考核评判过程中考生具体的按压深度、频率等均依赖模拟人本身的质量条件，考官很难评判；训练过程中学员需要考官时时监督配合来纠正和提高自身的操作，大量消耗培训和考核的人力成本等等。

现有技术在获取了考生的按压图像之后，由于按压动作是一个动态过程，无法根据按压图像判断考生按压姿态是否合格，这就给自动评判带来了困难。

同时，在对图像特征进行提取时，需要根据实际情况分割不同的模型。对于每一个模型，由于图像数据量大，保证模型的精度才能更好地实现人体姿态识别，因此，如何提供模型精度是一个亟待解决的问题。

发明内容

本发明要解决的技术问题是：如何提供模型的精度，提供一种基于注意力机制的改进HRnet模型。

为解决上述技术问题，本发明采用以下技术方案：

一种基于注意力机制的改进HRnet模型，其特征在于：当输入F作为输入特征图inputfeature map时，增加注意力机制模块attention block，并对注意力机制模块attentionblock进行以下2个操作：

表示在通道维度上做注意力提取的操作，即建立通道注意力机制模型，

表示的是在空间维度上做注意力提取的操作，即建立空间注意力机制模型。

所述的通道注意力机制模型为：原始特征图X_in经过卷积核大小分别为3X3，5X5的卷积操作，得到特征图U和特征图V，然后相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道，H代表高度，W代表宽度，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共得到两个一维矢量；然后对两个一维矢量进行元素相加，最终得到了关于通道的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度；对1×1×C一维向量进行一个线性变换，将原来的C维映射成Z维的信息，然后将映射成Z维的一维向量再分别使用了2个线性变换，从Z维变为原来的C维，从而完成了针对通道维度的信息提取，然后使用Softmax进行归一化，这时候每个通道对应一个分数，代表该通道的重要程度，这相当于一个mask；将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’,V’；然后对特征图U’和V’这2个模块相加，进行信息融合，得到最终模块X_out。

空间注意力机制模型为：输入原始特征图X_in经过池化特征，其中池化特征包含3个池化层，分别是平均池化, 最大池化和条纹池化，池化特征经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图，该特征图经过Sigmoid函数，与输入原始特征图 X_in进行逐元素分别进行点乘，得到输出X_out。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为原始HRnet模型。

图2为本发明改进型HRnet模型图。

图3为本发明通道注意力机制模型图。

图4为空间注意力机制模型图。

图5为改进后的HRnet整体结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

应该指出，以下详细说明都是例式性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的技术含义相同。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本发明中的具体含义，不能理解为对本发明的限制。

本发明将HRNet用于心肺复苏按压动作过程中的人体姿态检测，以及心肺复苏医学考核中假人胸部，头部等实例分割模型的主干网络的检测，为了提高模型的精度，对HRNet进行了优化改进。

如图1所示，在原始的HRnet中，共有4个阶段，第2、3、4阶段均为重复的多分辨率模块（modularized multi-resolution blocks）。在每个多分辨率模块之前，有一个交换层（Translation layer），该层才会出现额外的特征图。而多分辨率模块（多分辨率分组卷积+多分辨率卷积）没有额外的特征图出现。本发明对HRnet进行改进优化，提高其检测精度。在从多分辨率group conv到多分辨率conv的卷积过程中，加入attention block，以提升网络模型的特征表达能力。attention不止能告诉网络模型该注意什么，同时也能增强特定区域的表征。其结构如图2所示，整体框架参考：CBAM: Convolutional Block AttentionModule。

在图2中，在channel和spatial两个维度上引入了attention机制，当输入F作为输入特征图input feature map时，增加attention block，注意力机制模块attention block对其进行以下2个操作：

输出为F’，

表示在通道channel维度上做attention提取的操作，即建立通道注意力机制模型，

表示的是在空间spatial维度上做attention提取的操作，即建立空间注意力机制模型。

通道注意力机制模型具体为，如图3所示，原始特征图feature map X_in经过卷积核大小kernel size分别为3X3，5X5的卷积操作，得到U特征图和V特征图，然后将U特征图和V特征图相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道channel，H代表高度height，W代表宽度width，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共可以得到两个一维矢量，global average pooling对特征图F（feature map）上的每一个像素点都有反馈，而global max pooling在进行梯度反向传播计算只有特征图F（feature map）中响应最大的地方有梯度的反馈，能作为globalaverage pooling的一个补充。然后进行元素相加，最终得到了关于通道channel的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度。

之后再用了一个线性变换，将原来的C维映射成Z维的信息，然后分别使用了2个线性变换，从Z维变为原来的C，这样完成了针对channel维度的信息提取，然后使用Softmax进行归一化，这时候每个channel对应一个分数，代表其通道channel的重要程度，这相当于一个mask。将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’,V’。然后2个模块相加，进行信息融合，得到最终模块X_out，最终模块X_out相比于最初的原始特征图featuremap X_in经过了信息的提炼，融合了多个感受野的信息。

考虑到人体关节点的长距离相关性，空间注意力机制模型需有效捕远程上下文信息。整体的注意力机制模型如图4所示：

原始特征图输入X_in经过Pooling Feature，其中Pooling Feature 包含3个池化层，分别是average pooling, max pooling和Strip pooling，Strip pooling参考StripPooling: Rethinking Spatial Pooling for Scene Parsing论文，主要解决目标远距离相关的问题。Pooling Feature经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图Feature map，该特征图Feature map经过Sigmoid函数，与输入的原始特征图Featuremap X_in进行element-wise的点乘，得到输出X _out。

经过改进后的HRNet整体结构如图5所示：

Channel maps 与Attention Block之间是直接连接，没有Upsample和Strided conv模块。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于注意力机制的改进HRnet，其特征在于：当输入F作为输入特征图时，增加注意力机制模块attention block，并对注意力机制模块进行以下2个操作：

2.根据权利要求1所述的基于注意力机制的改进HRnet，其特征在于：所述的通道注意力机制模型为：原始特征图X_in 经过卷积核大小分别为3X3，5X5的卷积操作，得到特征图U和特征图V，然后相加得到特征图F，特征图F融合多个感受野的信息，其形状为[C,H,W]，其中，C代表通道，H代表高度，W代表宽度，然后沿着H和W维度求平均值和极大值，通过两个pooling函数以后总共得到两个一维矢量；然后对两个一维矢量进行元素相加，最终得到了关于通道的信息是一个1×1×C的一维向量，代表的是各个通道的信息的重要程度；对1×1×C一维向量进行一个线性变换，将原来的C维映射成Z维的信息，然后将映射成Z维的一维向量再分别使用了2个线性变换，从Z维变为原来的C维，从而完成了针对通道维度的信息提取，然后使用Softmax进行归一化，这时候每个通道对应一个分数，代表该通道的重要程度，这相当于一个mask；将这2个分别得到的mask分别乘以对应的特征图U,V，得到特征图U’，V’；然后对特征图U’和V’这2个模块相加，进行信息融合，得到最终模块X_out。

3.根据权利要求1所述的基于注意力机制的改进HRnet，其特征在于：空间注意力机制模型为：输入原始特征图X_in经过池化特征，其中池化特征包含3个池化层，分别是平均池化,最大池化和条纹池化，池化特征经过1X1的卷积操作，实现通道降维，得到通道数为1的特征图，该特征图经过Sigmoid函数，与输入原始特征图 X_in进行逐元素分别进行点乘，得到输出X_out。