CN112270213A - 一种基于注意力机制的改进HRnet - Google Patents
一种基于注意力机制的改进HRnet Download PDFInfo
- Publication number
- CN112270213A CN112270213A CN202011084171.9A CN202011084171A CN112270213A CN 112270213 A CN112270213 A CN 112270213A CN 202011084171 A CN202011084171 A CN 202011084171A CN 112270213 A CN112270213 A CN 112270213A
- Authority
- CN
- China
- Prior art keywords
- channel
- attention mechanism
- pooling
- hrnet
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
Description
技术领域
本发明涉及一种改进型算法,具体涉及一种基于注意力机制的改进HRnet模型。
背景技术
心脏骤停严重威胁人们的生命健康,开展优质的心肺复苏(CPR,cardiopulmonary resuscitation)可显著提升患者存活率,同时也是挽救患者生命的重要手段。美国心脏协会(AHA, American Heart Association)和国际复苏联络委员会(ILCOR,International Liaision Committee on Resuscitation)将高质量的心肺复苏术作为复苏的核心[1]。目前常规的心肺复苏训练、考核方式为应用医学模拟人并由裁判打分评判。这样做存在几个弊端,比如考官评判主观性强,不够客观;在考核评判过程中考生具体的按压深度、频率等均依赖模拟人本身的质量条件,考官很难评判;训练过程中学员需要考官时时监督配合来纠正和提高自身的操作,大量消耗培训和考核的人力成本等等。
现有技术在获取了考生的按压图像之后,由于按压动作是一个动态过程,无法根据按压图像判断考生按压姿态是否合格,这就给自动评判带来了困难。
同时,在对图像特征进行提取时,需要根据实际情况分割不同的模型。对于每一个模型,由于图像数据量大,保证模型的精度才能更好地实现人体姿态识别,因此,如何提供模型精度是一个亟待解决的问题。
发明内容
本发明要解决的技术问题是:如何提供模型的精度,提供一种基于注意力机制的改进HRnet模型。
为解决上述技术问题,本发明采用以下技术方案:
一种基于注意力机制的改进HRnet模型,其特征在于:当输入F作为输入特征图inputfeature map时,增加注意力机制模块attention block,并对注意力机制模块attentionblock进行以下2个操作:
所述的通道注意力机制模型为:原始特征图Xin经过卷积核大小分别为3X3,5X5的卷积操作,得到特征图U和特征图V,然后相加得到特征图F,特征图F融合多个感受野的信息,其形状为[C,H,W],其中,C代表通道,H代表高度,W代表宽度,然后沿着H和W维度求平均值和极大值,通过两个pooling函数以后总共得到两个一维矢量;然后对两个一维矢量进行元素相加,最终得到了关于通道的信息是一个1×1×C的一维向量,代表的是各个通道的信息的重要程度;对1×1×C一维向量进行一个线性变换,将原来的C维映射成Z维的信息,然后将映射成Z维的一维向量再分别使用了2个线性变换,从Z维变为原来的C维,从而完成了针对通道维度的信息提取,然后使用Softmax进行归一化,这时候每个通道对应一个分数,代表该通道的重要程度,这相当于一个mask;将这2个分别得到的mask分别乘以对应的特征图U,V,得到特征图U’,V’;然后对特征图U’和V’这2个模块相加,进行信息融合,得到最终模块Xout。
空间注意力机制模型为:输入原始特征图Xin经过池化特征,其中池化特征包含3个池化层,分别是平均池化, 最大池化和条纹池化,池化特征经过1X1的卷积操作,实现通道降维,得到通道数为1的特征图,该特征图经过Sigmoid函数,与输入原始特征图 Xin进行逐元素分别进行点乘,得到输出Xout。
采用上述技术方案的本发明,具有以下有益效果:本发明专利在原有的HRnet模型基础之上,增加注意力机制模型,使得改进后的HRNet用于心肺复苏按压动作过程中的人体姿态检测,以及为心肺复苏医学考核中假人胸部,头部等实例分割模型提供精确的主干网络,提高了模型的检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为原始HRnet模型。
图2为本发明改进型HRnet模型图。
图3为本发明通道注意力机制模型图。
图4为空间注意力机制模型图。
图5为改进后的HRnet整体结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
应该指出,以下详细说明都是例式性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的技术含义相同。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本发明中的具体含义,不能理解为对本发明的限制。
本发明将HRNet用于心肺复苏按压动作过程中的人体姿态检测,以及心肺复苏医学考核中假人胸部,头部等实例分割模型的主干网络的检测,为了提高模型的精度,对HRNet进行了优化改进。
如图1所示,在原始的HRnet中,共有4个阶段,第2、3、4阶段均为重复的多分辨率模块(modularized multi-resolution blocks)。在每个多分辨率模块之前,有一个交换层(Translation layer),该层才会出现额外的特征图。而多分辨率模块(多分辨率分组卷积+多分辨率卷积)没有额外的特征图出现。本发明对HRnet进行改进优化,提高其检测精度。在从多分辨率group conv到多分辨率conv的卷积过程中,加入attention block,以提升网络模型的特征表达能力。attention不止能告诉网络模型该注意什么,同时也能增强特定区域的表征。其结构如图2所示,整体框架参考:CBAM: Convolutional Block AttentionModule。
在图2中,在channel和spatial两个维度上引入了attention机制,当输入F作为输入特征图input feature map时,增加attention block,注意力机制模块attention block对其进行以下2个操作:
通道注意力机制模型具体为,如图3所示,原始特征图feature map Xin经过卷积核大小kernel size分别为3X3,5X5的卷积操作,得到U特征图和V特征图,然后将U特征图和V特征图相加得到特征图F,特征图F融合多个感受野的信息,其形状为[C,H,W],其中,C代表通道channel,H代表高度height,W代表宽度width,然后沿着H和W维度求平均值和极大值,通过两个pooling函数以后总共可以得到两个一维矢量,global average pooling对特征图F(feature map)上的每一个像素点都有反馈,而global max pooling在进行梯度反向传播计算只有特征图F(feature map)中响应最大的地方有梯度的反馈,能作为globalaverage pooling的一个补充。然后进行元素相加,最终得到了关于通道channel的信息是一个1×1×C的一维向量,代表的是各个通道的信息的重要程度。
之后再用了一个线性变换,将原来的C维映射成Z维的信息,然后分别使用了2个线性变换,从Z维变为原来的C,这样完成了针对channel维度的信息提取,然后使用Softmax进行归一化,这时候每个channel对应一个分数,代表其通道channel的重要程度,这相当于一个mask。将这2个分别得到的mask分别乘以对应的特征图U,V,得到特征图U’,V’。然后2个模块相加,进行信息融合,得到最终模块Xout,最终模块Xout相比于最初的原始特征图featuremap Xin经过了信息的提炼,融合了多个感受野的信息。
考虑到人体关节点的长距离相关性,空间注意力机制模型需有效捕远程上下文信息。整体的注意力机制模型如图4所示:
原始特征图输入Xin经过Pooling Feature,其中Pooling Feature 包含3个池化层,分别是average pooling, max pooling和Strip pooling,Strip pooling参考StripPooling: Rethinking Spatial Pooling for Scene Parsing论文,主要解决目标远距离相关的问题。Pooling Feature经过1X1的卷积操作,实现通道降维,得到通道数为1的特征图Feature map,该特征图Feature map经过Sigmoid函数,与输入的原始特征图Featuremap Xin进行element-wise的点乘,得到输出X out。
经过改进后的HRNet整体结构如图5所示:
Channel maps 与Attention Block之间是直接连接,没有Upsample和Strided conv模块。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (3)
2.根据权利要求1所述的基于注意力机制的改进HRnet,其特征在于:所述的通道注意力机制模型为:原始特征图Xin 经过卷积核大小分别为3X3,5X5的卷积操作,得到特征图U和特征图V,然后相加得到特征图F,特征图F融合多个感受野的信息,其形状为[C,H,W],其中,C代表通道,H代表高度,W代表宽度,然后沿着H和W维度求平均值和极大值,通过两个pooling函数以后总共得到两个一维矢量;然后对两个一维矢量进行元素相加,最终得到了关于通道的信息是一个1×1×C的一维向量,代表的是各个通道的信息的重要程度;对1×1×C一维向量进行一个线性变换,将原来的C维映射成Z维的信息,然后将映射成Z维的一维向量再分别使用了2个线性变换,从Z维变为原来的C维,从而完成了针对通道维度的信息提取,然后使用Softmax进行归一化,这时候每个通道对应一个分数,代表该通道的重要程度,这相当于一个mask;将这2个分别得到的mask分别乘以对应的特征图U,V,得到特征图U’,V’;然后对特征图U’和V’这2个模块相加,进行信息融合,得到最终模块Xout。
3.根据权利要求1所述的基于注意力机制的改进HRnet,其特征在于:空间注意力机制模型为:输入原始特征图Xin经过池化特征,其中池化特征包含3个池化层,分别是平均池化,最大池化和条纹池化,池化特征经过1X1的卷积操作,实现通道降维,得到通道数为1的特征图,该特征图经过Sigmoid函数,与输入原始特征图 Xin进行逐元素分别进行点乘,得到输出Xout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011084171.9A CN112270213A (zh) | 2020-10-12 | 2020-10-12 | 一种基于注意力机制的改进HRnet |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011084171.9A CN112270213A (zh) | 2020-10-12 | 2020-10-12 | 一种基于注意力机制的改进HRnet |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270213A true CN112270213A (zh) | 2021-01-26 |
Family
ID=74338520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011084171.9A Pending CN112270213A (zh) | 2020-10-12 | 2020-10-12 | 一种基于注意力机制的改进HRnet |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270213A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734757A (zh) * | 2021-03-29 | 2021-04-30 | 成都成电金盘健康数据技术有限公司 | 一种脊柱X光图像cobb角测量方法 |
CN113034545A (zh) * | 2021-03-26 | 2021-06-25 | 河海大学 | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 |
CN115100545A (zh) * | 2022-08-29 | 2022-09-23 | 东南大学 | 针对低照度下失效卫星小部件的目标检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别***及方法 |
CN111476184A (zh) * | 2020-04-13 | 2020-07-31 | 河南理工大学 | 一种基于双注意力机制的人体关键点检测方法 |
-
2020
- 2020-10-12 CN CN202011084171.9A patent/CN112270213A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610129A (zh) * | 2019-08-05 | 2019-12-24 | 华中科技大学 | 一种基于自注意力机制的深度学习人脸识别***及方法 |
CN111476184A (zh) * | 2020-04-13 | 2020-07-31 | 河南理工大学 | 一种基于双注意力机制的人体关键点检测方法 |
Non-Patent Citations (2)
Title |
---|
SANGHYUN WOO 等: "CBAM: Convolutional Block Attention Module", 《ECCV 2018: COMPUTER VISION – ECCV 2018》 * |
何凯等: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 《天津大学学报(自然科学与工程技术版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034545A (zh) * | 2021-03-26 | 2021-06-25 | 河海大学 | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 |
CN112734757A (zh) * | 2021-03-29 | 2021-04-30 | 成都成电金盘健康数据技术有限公司 | 一种脊柱X光图像cobb角测量方法 |
CN112734757B (zh) * | 2021-03-29 | 2021-06-25 | 成都成电金盘健康数据技术有限公司 | 一种脊柱X光图像cobb角测量方法 |
CN115100545A (zh) * | 2022-08-29 | 2022-09-23 | 东南大学 | 针对低照度下失效卫星小部件的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270213A (zh) | 一种基于注意力机制的改进HRnet | |
CN109410261B (zh) | 基于金字塔池化模块的单目图像深度估计方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN112434655B (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
CN109166130A (zh) | 一种图像处理方法及图像处理装置 | |
Leclerc et al. | LU-Net: a multistage attention network to improve the robustness of segmentation of left ventricular structures in 2-D echocardiography | |
CN109410247A (zh) | 一种多模板和自适应特征选择的视频跟踪算法 | |
CN112580515B (zh) | 一种基于高斯热图回归的轻量级人脸关键点检测方法 | |
CN110827304B (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和*** | |
CN110060286B (zh) | 一种单目深度估计方法 | |
CN104091320B (zh) | 基于数据驱动局部特征转换的噪声人脸超分辨率重建方法 | |
CN110838140A (zh) | 基于混合监督学习的超声和核磁图像配准融合方法及装置 | |
CN112541433B (zh) | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 | |
CN112001122A (zh) | 基于端到端生成对抗网络的非接触式生理信号测量方法 | |
CN112149613B (zh) | 一种基于改进lstm模型的动作预估评定方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩***及方法 | |
CN112183419A (zh) | 一种基于光流生成网络和重排序的微表情分类方法 | |
CN112200065B (zh) | 基于动作放大和自适应注意力区域选取的微表情分类方法 | |
CN109559278A (zh) | 基于多特征学习的超分辨图像重建方法及*** | |
CN117409002A (zh) | 一种用于创伤的视觉识别检测***及其检测方法 | |
CN116631064A (zh) | 基于关键点与网格顶点互补增强的3d人体姿态估计方法 | |
CN110705615A (zh) | 一种基于TV模型与GoogLeNet模型的甲状腺结节检测和分类方法 | |
CN110674675A (zh) | 一种行人面部反欺诈方法 | |
CN115424337A (zh) | 基于先验引导的虹膜图像修复*** | |
CN115565671A (zh) | 基于跨模型相互教学半监督的房颤辅助分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |
|
RJ01 | Rejection of invention patent application after publication |