CN117889867A - 一种基于局部自注意力移动窗口算法的路径规划方法 - Google Patents

一种基于局部自注意力移动窗口算法的路径规划方法 Download PDF

Info

Publication number
CN117889867A
CN117889867A CN202410304943.7A CN202410304943A CN117889867A CN 117889867 A CN117889867 A CN 117889867A CN 202410304943 A CN202410304943 A CN 202410304943A CN 117889867 A CN117889867 A CN 117889867A
Authority
CN
China
Prior art keywords
self
attention
layer
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410304943.7A
Other languages
English (en)
Other versions
CN117889867B (zh
Inventor
范至正
谢非
杨继全
张策
李艺钧
王鲁睿
孙煜炫
周正亚
陈君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202410304943.7A priority Critical patent/CN117889867B/zh
Publication of CN117889867A publication Critical patent/CN117889867A/zh
Application granted granted Critical
Publication of CN117889867B publication Critical patent/CN117889867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M1/00Testing static or dynamic balance of machines or structures
    • G01M1/12Static balancing; Determining position of centre of gravity
    • G01M1/122Determining position of centre of gravity
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01PMEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
    • G01P13/00Indicating or recording presence, absence, or direction, of movement
    • G01P13/02Indicating direction only, e.g. by weather vane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于局部自注意力移动窗口算法的路径规划方法,获取当前作业环境的RGB图像,并进行预处理并变换为灰度图;进行边缘检测后获得二值化图像,通过激活函数得到边缘自注意力权重;根据灰度图分割后的图像块的海塞矩阵特征值的熵得到曲率自注意力权重;通过边缘自注意力权重和曲率自注意力权重改进自监督注意力语义分割网络,通过改进的网络获得含有语义信息的图像,根据连续时刻获得的图像预测障碍物的运动方向,从而选择机器人的运动方向。引入海塞矩阵的熵得到新的自注意力权重,加强物体边缘的分割;引入边缘检测得到的自注意力权重,加强图像中颜色变化较大部分的分割,提高边缘分割的准确性,从而提高避障的成功率。

Description

一种基于局部自注意力移动窗口算法的路径规划方法
技术领域
本发明涉及机器人视觉路径规划,具体是涉及一种基于局部自注意力移动窗口算法的路径规划方法。
背景技术
随着计算机视觉技术的不断发展,基于深度学习的语义分割在机器人视觉路径规划领域也不断拓宽。这种技术能够利用深度学习模型对局部环境进行实时感知,进而通过语义信息提高对障碍物的识别精度,从而为路径规划提供更可靠的环境感知数据。可是目前部分路径规划技术仍存在识别目标不准确,边缘分割不准确的问题。
目前,路径规划作为自主移动机器人和自动驾驶车辆等领域的关键技术,旨在实现在复杂、动态环境中的安全、高效移动。传统的路径规划方法主要基于经典的规划算法,此方法在静态环境下效果良好,但在动态环境中往往难以处理实时变化的环境信息。随着深度学习和强化学习等人工智能技术的不断发展,路径规划技术也迎来了新的突破。深度学习方法通过学习大量真实场景数据,能够更好地理解环境特征和动态变化,从而提高路径规划的鲁棒性和适应性。但是目前的采用深度学习的路径规划方法由于动态复杂情况下的障碍物存在尺度大小变化以及自身移动的问题,容易出现边缘分割不准确导致避障出现误差的问题。
发明内容
发明目的:针对以上缺点,本发明提供一种实时性强、障碍物分割准确率高、抗背景干扰能力强的基于局部自注意力移动窗口算法的路径规划方法。
技术方案:为解决上述问题,本发明采用一种基于局部自注意力移动窗口算法的路径规划方法,包括以下步骤:
(1)获取当前作业环境的RGB图像,并进行预处理,获得预处理后作业环境的RGB图像;
(2)将预处理后作业环境的RGB图像变换为灰度图;
(3)对变换后的灰度图进行边缘检测,获得含有边缘特征信息的二值化图像,通过激活函数得到二值化图像的边缘自注意力权重;对变换后的灰度图进行分割化处理得到若干灰度图像块,计算分割后的每个灰度图像块对应的海塞矩阵特征值的熵,并根据熵通过激活函数计算得到每个灰度图像块的曲率自注意力权重;
(4)通过边缘自注意力权重和曲率自注意力权重改进自监督注意力语义分割网络,自监督注意力语义分割网络中包括两个连续的自注意力窗口层,边缘自注意力权重和曲率自注意力权重分别加入两个连续的自注意力窗口层的注意力计算;
(5)通过改进的自监督注意力语义分割网络处理预处理后作业环境的RGB图像,获得含有语义信息的作业环境RGB图像,根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置,并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向。
进一步的,所述步骤(1)中对当前作业环境的RGB图像进行预处理包括对当前作业环境的RGB图像进行缩放,然后对缩放后的RGB图像进行翻转、仿射变换和增加噪声,得到预处理后作业环境的RGB图像。
进一步的,所述步骤(3)中对变换后的灰度图进行边缘检测,获得含有边缘特征信息的二值化图像,通过激活函数得到二值化图像的边缘自注意力权重包括:
(3.11)对灰度图进行平滑处理,然后计算图像中每个像素的梯度幅值,并对其进行极大值抑制操作,最后通过双阈值算法进行边缘检测,得到含有边缘信息的二值化图像;
(3.12)将含有边缘信息的二值化图像中每个像素点的置信度进行平滑处理,置信度的计算公式为:
其中,表示第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中第个像素点的灰度值,/>表示含有边缘信息的二值化图像中第/>个像素点与第/>个像素点的距离,/>表示含有边缘信息的二值化图像中除第/>个像素点以外第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中像素点的总个数;
(3.13)将置信度通过激活函数转换为每个像素点的边缘自注意力权重,计算公式为:
其中,表示含有边缘信息的二值化图像中第个像素点的边缘自注意力权重值,/>为/>激活函数。
进一步的,所述步骤(3)中分割后的每个灰度图像块对应的海塞矩阵特征值的熵的计算公式为:
其中,表示第/>个灰度图像块所对应的海塞矩阵特征值的熵,/>表示各个灰度图像块中像素点的数量,/>表示第/>个灰度图像块所对应海塞矩阵的特征值。
进一步的,所述步骤(3)中曲率自注意力权重的计算公式如下:
其中,表示第/>个灰度图像块所对应的曲率自注意力权重,/>为分割处理后灰度图像块的总个数。
进一步的,所述步骤(5)中通过改进的自监督注意力语义分割网络处理预处理后作业环境的RGB图像包括:
(5.1)将预处理后作业环境的RGB图像进行缩小,并将缩小前后的图像分别从原始图通道和缩小图通道输入到图像块分割层进行分割,分别得到多个不重叠的图像块;
(5.2)将分割得到的图像块均输入第一个线性自注意力特征提取模块,第一个线性自注意力特征提取模块包括一个线性嵌入层和两个连续的自注意力窗口层,得到第一次特征提取后的特征图;
(5.3)将第一次特征提取后的特征图依次输入到三个相同的融合自注意力特征提取模块,融合自注意力特征提取模块包括一个补丁融合层和两个连续的自注意力窗口层,得到第四次特征提取后的特征图;
(5.4)将原始图通道和缩小图通道中获得的各次特征提取后的特征图经过上采样和跳跃连接操作后输入到解码器中进行语义分割,获得含有语义信息的作业环境RGB图像。
进一步的,第一个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第一次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第二次特征提取后的特征图/>;将缩小图通道中第一次特征提取后的特征图/>输入到补丁融合层,进行下采样,输出维度设置为/>,得到第二次特征提取后的特征图/>,/>为图像深度,/>为图像的高度,/>为图像的宽度;
第二个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第二次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第三次特征提取后的特征图/>;将缩小图通道中第二次特征提取后的特征图/>输入到补丁融合层,进行下采样,输出维度设置为/>,得到第三次特征提取后的特征图/>
第三个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第三次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第四次特征提取后的特征图/>;将缩小图通道中第三次特征提取后的特征图/>输入到补丁融合层,进行下采样,输出维度设置为/>,得到第四次特征提取后的特征图/>
进一步的,所述两个连续的自注意力窗口层包括:
将线性嵌入层或补丁融合层输出的特征图输入到第一个层归一化层中进行归一化处理,将层归一化后的特征图输入到窗口自注意力计算层进行窗口分配操作,并将曲率自注意力权重加入自注意力计算,再将窗口自注意力计算层输出的特征图与线性嵌入层或补丁融合层输出的特征图依次输入全连接层、第二个层归一化层、多层感知机层中,最后将多层感知机层输出的特征图与窗口自注意力计算层输出的特征图进行全连接操作,得到第一个注意力窗口模块输出的特征图,自注意力计算公式如下:
其中,为加入曲率自注意力权重的自注意力计算函数,变量为查询向量,变量/>为键向量,/>为键向量的转置向量,变量/>为值向量,变量/>表示偏置量,变量/>表示键的维度,/>为层归一化后当前作业环境的特征图中第/>个像素点的曲率自注意力权重,/>表示层归一化后当前作业环境的特征图中像素点的总个数,/> 表示层归一化后当前作业环境的特征图中第/>个像素点,/>为改进后的激活函数。
将第一个注意力窗口模块输出的特征图输入到第三个层归一化层中进行归一化处理,将层归一化后的特征图输入到移动窗口多头自注意力层中,并将边缘自注意力权重加入自注意力计算,再将移动窗口多头自注意力层输出的特征图与第一个注意力窗口模块输出的特征图依次输入全连接层、第四个层归一化层、多层感知机层中,经过多层感知机层的激活函数的处理,将多层感知机层输出的特征图与移动窗口多头自注意力层输出的特征图进行全连接操作,得到连续两个注意力窗口模块整体输出的特征图;自注意力计算公式如下:
其中,为加入边缘自注意力权重的自注意力计算函数,为层归一化后当前作业环境的特征图中第/>个像素点的边缘自注意力权重。
进一步的,所述步骤(5.4)中将原始图通道和缩小图通道中获得的各次特征提取后的特征图经过上采样和跳跃连接操作后输入到解码器中进行语义分割包括:
将缩小图通道中第四次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第四次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图片大小为/>,扩展自注意力模块包括一个补丁扩展层和两个连续的自注意力层;
将缩小图通道中第三次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第三次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图片大小为/>
将缩小图通道中第二次特征提取后的特征图进行上采样操作,使其大小为并与原始图通道中第二次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图像大小为/>
将缩小图通道中第一次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第一次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图像大小为/>
进一步的,所述根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向包括:
(5.51)计算每个时刻的含有语义信息的作业环境图像中障碍物中心点的位置坐标;
(5.52)根据预测函数以及障碍物中心点的位置坐标预测出下一个时刻障碍物的位置,公式如下:
其中,表示预测得到的下一个时刻障碍物中心点的横坐标,/>表示第/>时刻含有语义信息的作业环境RGB图像中障碍物中心点的横坐标,/>表示一共获取障碍物坐标的个数;
(5.53)根据预测得到的下一时刻障碍物中心点的位置在含有语义信息的作业环境图像中的位置,确定下一时刻机器人运动的方向,计算公式如下:
其中,表示含有语义信息的作业环境RGB图像的中心点的横坐标,/>表示预测得到的下一时刻障碍物中心点的横坐标,/>为预测得到的下一时刻障碍物中心点相对含有语义信息的作业环境RGB图像的中心点的距离,/>为路径规划时机器人转动的角度;
(5.54)机器人调整对应的运动方向,并向前移动预设距离后,返回执行步骤(1)。
有益效果:本发明相对于现有技术,其显著优点是通过引入根据海塞矩阵的熵计算得到新的自注意力权重,使自监督注意力语义分割网络更加注重物体边缘的分割;引入根据边缘检测计算得到的自注意力权重,使自监督注意力语义分割网络更加注重图像中颜色变化较大的部分的分割,提高边缘分割的准确性,从而提高避障的成功率。运用改进的激活函数计算自注意力权重,使自监督注意力语义分割网络更加适应路径规划的应用场景,提高边缘分割的准确性,从而提高避障的成功率;对于边缘检测得到的二值化图像进行平滑处理,避免自注意力计算时过度关注边缘部分;识别障碍物的速率快,准确率高,抗背景干扰能力强,路径规划准度提高。
附图说明
图1是本发明路径规划方法的工作流程示意图。
图2是本发明中相机采集的当前作业环境的灰度图像。
图3是本发明中当前作业环境的边缘检测所得二值化图像。
图4是本发明中自监督注意力语义分割网络模型图。
图5是采用现有技术UperNet获得的当前作业环境的RGB图像的语义分割效果图。
图6是采用本发明获得的当前作业环境的RGB图像的语义分割效果图。
具体实施方式
本实施例中一种基于局部自注意力移动窗口算法的路径规划方法,由RealSenseD435i深度双目相机采集当前作业环境的RGB图像,通过上位机的软件对图像进行处理,利用液晶显示屏进行处理结果显示,并将处理结果输入进机器人处理器进行路径规划。本方法可应用于机器人路径规划领域。
如图1所示,本实施例中一种基于局部自注意力移动窗口算法的路径规划方法,包括以下步骤:
(1)通过摄像头获取当前作业环境的RGB图像,对得到当前作业环境的RGB图像进行预处理,获得预处理后作业环境的RGB图像。
(1.1)对获取的彩色图像进行缩放,缩放到主干网络可接受的图像大小。
(1.2)对缩放后的彩色图像进行翻转、仿射变换和增加噪声,得到预处理后的当前作业环境的RGB图像。
(2)将当前作业环境的RGB图像转换为灰度图像,得到当前作业环境的灰度图像,如图2所示。
(3)对变换后的灰度图进行边缘检测,获得含有边缘特征信息的二值化图像,通过激活函数得到二值化图像的边缘自注意力权重;具体步骤包括:
(3.11)对预处理后的当前作业环境的灰度图像进行平滑处理,利用高斯滤波器对原始的图像使用高斯核函数,得到平滑处理后的当前作业环境的灰度图像。其中高斯核函数的公式如下:
其中,为高斯核函数,/>表示带宽,/>表示预处理后的当前作业环境的灰度图像中各个像素点的坐标。
(3.12)运用Sobel边缘检测算子计算一阶偏导有限差分,得到当前作业环境的灰度图像中每个像素的梯度幅值,并对其进行极大值抑制操作,最后通过双阈值算法进行边缘检测,具体方法可参考杨翊麟.局部自适应阈值法改进算子的图像边缘提取[J].信息与电脑(理论版),2023,35(14):78-80.,在此不再赘述,得到含有边缘信息的当前作业环境的二值化图像,如图3所示。
(3.13)将对含有边缘信息的当前作业环境的二值化图像中每个像素点的像素值作为置信度,并对其置信度进行平滑处理,置信度计算公式为:
其中,表示第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中第个像素点的灰度值,/>表示含有边缘信息的二值化图像中第/>个像素点与第/>个像素点的距离,/>表示含有边缘信息的二值化图像中除第/>个像素点以外第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中像素点的总个数。
将平滑处理后的含有边缘信息的当前作业环境的二值化图像中每个像素点的置信度运用改进后的激活函数计算其边缘注意力权重,计算公式为:
其中 表示第/>个像素点的置信度,/>表示含有边缘信息的当前作业环境的二值化图像中第/>个像素点的边缘自注意力权重值,/>表示含有边缘信息的当前作业环境的二值化图像中像素点的总个数,/>为改进后的/>激活函数。
对变换后的灰度图进行分割化处理得到若干灰度图像块,计算分割后的每个灰度图像块对应的海塞矩阵特征值的熵,并根据熵通过激活函数计算得到每个灰度图像块的曲率自注意力权重,具体步骤包括:
(3.21)将所得的当前作业环境的灰度图像以步长为8在当前作业环境的灰度图像中提取图像块,其中每个图像块包含64个像素点,图像块大小为8×8,得到若干个分割处理后当前作业环境的灰度图像块;
(3.22)计算每一个灰度图像块所对应的特征图的海塞矩阵,同时滤去点状结构和噪声点。每个分割处理后当前作业环境的每个灰度图像块中的像素点与其对应高斯函数的二阶导数做卷积,得到每个分割处理后当前作业环境的灰度图像块对应的海塞矩阵,从而求得分割处理后当前作业环境的各个灰度图像块所对应海塞矩阵的特征值解,计算公式如下:
其中,表示分割处理后当前作业环境的灰度图像块所对应的灰度值函数,表示分割处理后当前作业环境的灰度图像块中的每个像素点所对应的灰度值,/>表示分割处理后当前作业环境的灰度图像块中像素点的数量,/>表示分割处理后当前作业环境的每个灰度图像块所对应的海塞矩阵,/>表示分割处理后当前作业环境的灰度图像块所对应的高斯函数,/>分别表示预处理后分割处理后当前作业环境的灰度图像块中每个像素点的横、纵坐标,/>表示高斯分布中的标准差,/>表示分割处理后当前作业环境的各个灰度图像块所对应海塞矩阵的特征值。
(3.23)计算分割处理后当前作业环境的各个灰度图像块所对应的特征值的熵,其基本公式如下:
其中,表示第/>个分割处理后当前作业环境的灰度图像块所对应的特征值的熵,/>表示分割处理后当前作业环境的各个灰度图像块中像素点的数量,/>表示分割处理后当前作业环境的第/>个灰度图像块所对应海塞矩阵的特征值。
(3.24)对分割处理后当前作业环境的灰度图像块所对应的海塞矩阵的熵运用激活函数得到每个分割处理后当前作业环境的灰度图像块所对应的曲率自注意力权重。计算公式如下:
其中,表示第/>个分割处理后当前作业环境的灰度图像块所对应的特征值的熵,/>表示第/>个当前作业环境的灰度图像块所对应的曲率自注意力权重,/>为分割处理后灰度图像块的总个数。
(4)通过边缘自注意力权重和曲率自注意力权重改进自监督注意力语义分割网络,自监督注意力语义分割网络中包括两个连续的自注意力窗口层,边缘自注意力权重和曲率自注意力权重分别加入两个连续的自注意力窗口层的注意力计算。
(5)通过改进的自监督注意力语义分割网络处理预处理后作业环境的RGB图像,获得含有语义信息的作业环境RGB图像,根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向。具体步骤如图4所示,包括:
(5.1)将预处理后当前作业环境的RGB图像缩小两倍,并将缩小前和缩小后的图像分别从原始图通道和缩小图通道输入到图像块分割层,将其分割成多个不重叠图像块。原始图像获得的图像块大小为,原始图像获得的图像块大小为/>,其中,为压缩后的图像深度,/>为预处理后当前作业环境的RGB图像的高度,/>为预处理后当前作业环境的RGB图像的宽度。
(5.2)将图像分割层输出的图像块输入到第一个线性自注意力特征提取模块,该模块包括一个线性嵌入层和两个连续的自注意力窗口层,得到第一次特征提取后的特征图。
(5.3)将第一次特征提取后的特征图依次输入到三个相同的融合自注意力特征提取模块,该模块包括一个补丁融合层和两个连续的自注意力窗口层,得到第四次特征提取后的特征图。
第一个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第一次特征提取后的特征图输入到第一个补丁融合层,进行下采样,输出维度设置为/>。得到的特征图尺寸大小为/>。将缩小图通道中第一次特征提取后的特征图/>输入到第一个补丁融合层,进行下采样,输出维度设置为/>。得到的特征图尺寸大小为/>
第二个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第二次特征提取后的特征图输入到第二个补丁融合层,进行下采样,输出维度设置为/>。得到的特征图尺寸大小为/>。将缩小图通道中第二次特征提取后的特征图输入到第二个补丁融合层,进行下采样,输出维度设置为。得到的特征图尺寸大小为/>
第三个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第三次特征提取后的特征图输入到第三个补丁融合层,进行下采样,输出维度设置为/>。得到的特征图尺寸大小为/>。将缩小图通道中第三次特征提取后的特征图/>输入到第三个补丁融合层,进行下采样,输出维度设置为/>。得到的特征图尺寸大小为/>
两个连续的自注意力窗口层包括:
第一个自注意力窗口层:将线性嵌入层或补丁融合层输出的特征图输入到第一个层归一化层中进行归一化处理,将层归一化后当前作业环境的特征图输入到窗口自注意力计算层进行窗口分配操作,并将所得的曲率自注意力权重加入注意力计算,再将窗口自注意力计算层输出的特征图与线性嵌入层或补丁融合层输出的特征图依次输入全连接层,第二个层归一化层,多层感知机层中,最后将多层感知机层输出的特征图与窗口自注意力计算层输出的特征图进行全连接操作,得到第一个注意力模块输出的特征图,其中自注意力计算公式如下:
其中,为加入曲率自注意力权重的自注意力计算函数,变量为查询向量,变量/>为键向量,/>为键向量的转置向量,变量/>为值向量,变量/>表示偏置量,变量/>表示键的维度,/>为层归一化后当前作业环境的特征图中第/>个像素点的曲率自注意力权重,/>表示层归一化后当前作业环境的特征图中像素点的总个数,/>表示层归一化后当前作业环境的特征图中第/>个像素点,/>为改进后的/>激活函数。
第二个自注意力窗口层:将第一个注意力窗口模块输出的特征图输入到第三个层归一化层中进行归一化处理,将层归一化后当前作业环境的特征图输入到移动窗口多头自注意力层中,并将所得的边缘自注意力权重加入自注意力计算来,再将移动窗口多头自注意力层输出的特征图与第一个注意力窗口模块输出的特征图依次输入全连接层,第四个层归一化层,多层感知机层中,经过多层感知机层的激活函数的处理,将多层感知机层输出的特征图与移动窗口多头自注意力层输出的特征图进行全连接操作,得到连续两个注意力窗口模块整体输出的特征图。其基本公式如下:
其中,为加入边缘自注意力权重的自注意力计算函数,为层归一化后当前作业环境的特征图中第/>个像素点的边缘自注意力权重。
(5.4)将第四次特征提取后的特征图依次输入到解码器中进行语义分割,获得含有语义信息的当前作业环境的RGB图像,如图6所示。具体包括:
将缩小图通道中第四次特征提取获得的特征图进行上采样操作,使其大小为,并与将原始图通道中第四次特征提取获得的特征图进行跳跃连接并输入到扩展自注意力模块,该模块包括一个补丁扩展层和两个连续的自注意力层。输出图片大小为/>
将缩小图通道中第三次特征提取获得的特征图进行上采样操作,使其大小为,并与将原始图通道中第三次特征提取获得的特征图进行跳跃连接并输入到扩展自注意力模块,该模块包括一个补丁扩展层和两个连续的自注意力层。输出图片大小为/>
将缩小图通道中第二次特征提取获得的特征图进行上采样操作,使其大小为,并与将原始图通道中第二次特征提取获得的特征图进行跳跃连接并输入到扩展自注意力模块,该模块包括一个补丁扩展层和两个连续的自注意力层。输出图像大小为
将缩小图通道中第一次特征提取获得的特征图进行上采样操作,使其大小为,并与将原始图通道中第一次特征提取获得的特征图进行跳跃连接并输入到扩展自注意力模块,该模块包括一个补丁扩展层和两个连续的自注意力层。输出图像大小为
(5.5)根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向。具体步骤包括:
(5.51)计算每个时刻所得的含有语义信息的当前作业环境的图像中障碍物的中心点的位置坐标。基本计算公式如下:
其中,表示第/>个时刻含有语义信息的当前作业环境的RGB图像中障碍物的中心点的横坐标,/>表示第/>个时刻含有语义信息的当前作业环境的RGB图像中障碍物的左边缘点的横坐标,/>表示第/>个时刻含有语义信息的当前作业环境的RGB图像中障碍物的右边缘点的横坐标。
(5.52)根据预测函数以及已获得的障碍物中心点坐标预测出下一个时刻障碍物的位置,其基本公式如下:
其中,表示预测得到的下一个时刻障碍物的中心点的横坐标,/>表示第/>个时刻含有语义信息的当前作业环境的RGB图像中障碍物的中心点的横坐标,/>表示一共获取障碍物坐标的个数。
(5.53)根据预测所得的下一时刻障碍物的中心点的位置在含有语义信息的当前作业环境的RGB图像中的位置计算下一时刻机器人运动的方向,基本计算公式如下:
;/>
其中,表示含有语义信息的当前作业环境的RGB图像的中心点的横坐标,/>表示预测得到的下一时刻障碍物的中心点的横坐标,/>为预测得到的下一时刻障碍物的中心点相对含有语义信息的当前作业环境的RGB图像的中心点的距离。
(5.54)根据其运动方向,计算出机器人自身应调整的运动方向,并向前移动0.5米。重复上述操作,实现路径规划,基本计算公式如下:
其中,为路径规划时转动的角度,此场景中/>取常值30度。
本发明还提供了与上述实施例作业环境相同但采用现有技术UperNet获得的当前作业环境的RGB图像的语义分割效果图对比。图5是采用现有技术UperNet获得的当前作业环境的RGB图像的语义分割效果图;图6是本发明实施例提供的一种采用本发明中基于局部自注意力移动窗口算法获得的当前作业环境的RGB图像的语义分割效果图;经过对比可以发现图6在对物体边缘分割的效果明显好于图5,由此可见,在上述实施例中,本发明提供的自监督注意力语义分割网络有效地提高了语义分割的准确性,从而提高了机器人的避障的准确率。

Claims (10)

1.一种基于局部自注意力移动窗口算法的路径规划方法,其特征在于,包括以下步骤:
(1)获取当前作业环境的RGB图像,并进行预处理,获得预处理后作业环境的RGB图像;
(2)将预处理后作业环境的RGB图像变换为灰度图;
(3)对变换后的灰度图进行边缘检测,获得含有边缘特征信息的二值化图像,通过激活函数得到二值化图像的边缘自注意力权重;对变换后的灰度图进行分割化处理得到若干灰度图像块,计算分割后的每个灰度图像块对应的海塞矩阵特征值的熵,并根据熵通过激活函数计算得到每个灰度图像块的曲率自注意力权重;
(4)通过边缘自注意力权重和曲率自注意力权重改进自监督注意力语义分割网络,自监督注意力语义分割网络中包括两个连续的自注意力窗口层,边缘自注意力权重和曲率自注意力权重分别加入两个连续的自注意力窗口层的注意力计算;
(5)通过改进的自监督注意力语义分割网络处理预处理后作业环境的RGB图像,获得含有语义信息的作业环境RGB图像,根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置,并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向。
2.根据权利要求1所述的路径规划方法,其特征在于,所述步骤(1)中对当前作业环境的RGB图像进行预处理包括对当前作业环境的RGB图像进行缩放,然后对缩放后的RGB图像进行翻转、仿射变换和增加噪声,得到预处理后作业环境的RGB图像。
3.根据权利要求1所述的路径规划方法,其特征在于,所述步骤(3)中对变换后的灰度图进行边缘检测,获得含有边缘特征信息的二值化图像,通过激活函数得到二值化图像的边缘自注意力权重包括:
(3.11)对灰度图进行平滑处理,然后计算图像中每个像素的梯度幅值,并对其进行极大值抑制操作,最后通过双阈值算法进行边缘检测,得到含有边缘信息的二值化图像;
(3.12)将含有边缘信息的二值化图像中每个像素点的置信度进行平滑处理,置信度的计算公式为:
其中,表示第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中第/>个像素点的灰度值,/>表示含有边缘信息的二值化图像中第/>个像素点与第/>个像素点的距离,/>表示含有边缘信息的二值化图像中除第/>个像素点以外第/>个像素点的置信度,/>表示含有边缘信息的二值化图像中像素点的总个数;
(3.13)将置信度通过激活函数转换为每个像素点的边缘自注意力权重,计算公式为:
其中,表示含有边缘信息的二值化图像中第/>个像素点的边缘自注意力权重值,/>为/>激活函数。
4.根据权利要求1所述的路径规划方法,其特征在于,所述步骤(3)中分割后的每个灰度图像块对应的海塞矩阵特征值的熵的计算公式为:
其中,表示第/>个灰度图像块所对应的海塞矩阵特征值的熵,/>表示各个灰度图像块中像素点的数量,/>表示第/>个灰度图像块所对应海塞矩阵的特征值。
5.根据权利要求4所述的路径规划方法,其特征在于,所述步骤(3)中曲率自注意力权重的计算公式如下:
其中,表示第/>个灰度图像块所对应的曲率自注意力权重,/>为分割处理后灰度图像块的总个数。
6.根据权利要求1所述的路径规划方法,其特征在于,所述步骤(5)中通过改进的自监督注意力语义分割网络处理预处理后作业环境的RGB图像包括:
(5.1)将预处理后作业环境的RGB图像进行缩小,并将缩小前后的图像分别从原始图通道和缩小图通道输入到图像块分割层进行分割,分别得到多个不重叠的图像块;
(5.2)将分割得到的图像块均输入第一个线性自注意力特征提取模块,第一个线性自注意力特征提取模块包括一个线性嵌入层和两个连续的自注意力窗口层,得到第一次特征提取后的特征图;
(5.3)将第一次特征提取后的特征图依次输入到三个融合自注意力特征提取模块,融合自注意力特征提取模块包括一个补丁融合层和两个连续的自注意力窗口层,得到第四次特征提取后的特征图;
(5.4)将原始图通道和缩小图通道中获得的各次特征提取后的特征图经过上采样和跳跃连接操作后输入到解码器中进行语义分割,获得含有语义信息的作业环境RGB图像。
7.根据权利要求6所述的路径规划方法,其特征在于,第一个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第一次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第二次特征提取后的特征图/>;将缩小图通道中第一次特征提取后的特征图/>输入到补丁融合层,进行下采样,输出维度设置为,得到第二次特征提取后的特征图/>,/>为图像深度,/>为图像的高度,/>为图像的宽度;
第二个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第二次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第三次特征提取后的特征图/>;将缩小图通道中第二次特征提取后的特征图/>输入到补丁融合层,进行下采样,输出维度设置为/>,得到第三次特征提取后的特征图/>
第三个融合自注意力特征提取模块的补丁融合层包括:
将原始图通道中第三次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第四次特征提取后的特征图/>;将缩小图通道中第三次特征提取后的特征图输入到补丁融合层,进行下采样,输出维度设置为/>,得到第四次特征提取后的特征图/>
8.根据权利要求7所述的路径规划方法,其特征在于,所述两个连续的自注意力窗口层包括:
将线性嵌入层或补丁融合层输出的特征图输入到第一个层归一化层中进行归一化处理,将层归一化后的特征图输入到窗口自注意力计算层进行窗口分配操作,并将曲率自注意力权重加入自注意力计算,再将窗口自注意力计算层输出的特征图与线性嵌入层或补丁融合层输出的特征图依次输入全连接层、第二个层归一化层、多层感知机层中,最后将多层感知机层输出的特征图与窗口自注意力计算层输出的特征图进行全连接操作,得到第一个注意力窗口模块输出的特征图,自注意力计算公式如下:
其中,为加入曲率自注意力权重的自注意力计算函数,变量/>为查询向量,变量/>为键向量,/>为键向量的转置向量,变量/>为值向量,变量/>表示偏置量,变量/>表示键的维度,/>为层归一化后当前作业环境的特征图中第/>个像素点的曲率自注意力权重,/>表示层归一化后当前作业环境的特征图中像素点的总个数,表示层归一化后当前作业环境的特征图中第/>个像素点,/>为/>激活函数;
将第一个注意力窗口模块输出的特征图输入到第三个层归一化层中进行归一化处理,将层归一化后的特征图输入到移动窗口多头自注意力层中,并将边缘自注意力权重加入自注意力计算,再将移动窗口多头自注意力层输出的特征图与第一个注意力窗口模块输出的特征图依次输入全连接层、第四个层归一化层、多层感知机层中,经过多层感知机层的激活函数的处理,将多层感知机层输出的特征图与移动窗口多头自注意力层输出的特征图进行全连接操作,得到连续两个注意力窗口模块整体输出的特征图;自注意力计算公式如下:
其中,为加入边缘自注意力权重的自注意力计算函数,为层归一化后当前作业环境的特征图中第/>个像素点的边缘自注意力权重。
9.根据权利要求8所述的路径规划方法,其特征在于,所述步骤(5.4)中将原始图通道和缩小图通道中获得的各次特征提取后的特征图经过上采样和跳跃连接操作后输入到解码器中进行语义分割包括:
将缩小图通道中第四次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第四次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图片大小为/>,扩展自注意力模块包括一个补丁扩展层和两个连续的自注意力层;
将缩小图通道中第三次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第三次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图片大小为/>
将缩小图通道中第二次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第二次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图像大小为/>
将缩小图通道中第一次特征提取后的特征图进行上采样操作,使其大小为,并与原始图通道中第一次特征提取后的特征图进行跳跃连接并输入到扩展自注意力模块,输出图像大小为/>
10.根据权利要求9所述的路径规划方法,其特征在于,所述根据连续时刻获得的含有语义信息的作业环境RGB图像计算出障碍物质心位置并预测出障碍物的运动方向,根据预测所得的障碍物的运动方向选择自身的运动方向包括:
(5.51)计算每个时刻的含有语义信息的作业环境RGB图像中障碍物中心点的位置坐标;
(5.52)根据预测函数以及障碍物中心点的位置坐标预测出下一个时刻障碍物的位置,公式如下:
其中,表示预测得到的下一个时刻障碍物中心点的横坐标,/>表示第/>时刻含有语义信息的作业环境RGB图像中障碍物中心点的横坐标,/>表示一共获取障碍物坐标的个数;
(5.53)根据预测得到的下一时刻障碍物中心点的位置在含有语义信息的作业环境RGB图像中的位置,确定下一时刻机器人运动的方向,计算公式如下:
其中,表示含有语义信息的作业环境RGB图像的中心点的横坐标,/>表示预测得到的下一时刻障碍物中心点的横坐标,/>为预测得到的下一时刻障碍物中心点相对含有语义信息的作业环境RGB图像的中心点的距离,/>为路径规划时机器人转动的角度;
(5.54)机器人调整对应的运动方向,并向前移动预设距离后,返回执行步骤(1)。
CN202410304943.7A 2024-03-18 2024-03-18 一种基于局部自注意力移动窗口算法的路径规划方法 Active CN117889867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410304943.7A CN117889867B (zh) 2024-03-18 2024-03-18 一种基于局部自注意力移动窗口算法的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410304943.7A CN117889867B (zh) 2024-03-18 2024-03-18 一种基于局部自注意力移动窗口算法的路径规划方法

Publications (2)

Publication Number Publication Date
CN117889867A true CN117889867A (zh) 2024-04-16
CN117889867B CN117889867B (zh) 2024-05-24

Family

ID=90639927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410304943.7A Active CN117889867B (zh) 2024-03-18 2024-03-18 一种基于局部自注意力移动窗口算法的路径规划方法

Country Status (1)

Country Link
CN (1) CN117889867B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100183217A1 (en) * 2007-04-24 2010-07-22 Seung H Sebastian Method and apparatus for image processing
CN101807257A (zh) * 2010-05-12 2010-08-18 上海交通大学 图像标签信息识别方法
US20110013819A1 (en) * 2006-02-10 2011-01-20 Nordic Bioscience Imaging A/S Breast tissue density measure
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
CN104778721A (zh) * 2015-05-08 2015-07-15 哈尔滨工业大学 一种双目图像中显著性目标的距离测量方法
CN109766924A (zh) * 2018-12-20 2019-05-17 东南大学 基于图像信息熵与自适应阈值daisy特征点的图像检测方法
WO2021011581A1 (en) * 2019-07-15 2021-01-21 Memorial Sloan Kettering Cancer Center Image-based predictive model for lung cancer
CN115482382A (zh) * 2022-09-17 2022-12-16 北京工业大学 一种基于Transformer架构的图像语义分割方法
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN116402742A (zh) * 2023-01-17 2023-07-07 有件(嘉兴)网络科技有限公司 一种汽车钣金件表面缺陷的视觉检测方法及***
CN117036686A (zh) * 2023-06-29 2023-11-10 南京邮电大学 一种基于自注意力与卷积特征融合的语义分割方法
CN117522896A (zh) * 2023-11-22 2024-02-06 深圳职业技术大学 基于自注意力的图像分割方法及计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013819A1 (en) * 2006-02-10 2011-01-20 Nordic Bioscience Imaging A/S Breast tissue density measure
US20100183217A1 (en) * 2007-04-24 2010-07-22 Seung H Sebastian Method and apparatus for image processing
CN101807257A (zh) * 2010-05-12 2010-08-18 上海交通大学 图像标签信息识别方法
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
CN104778721A (zh) * 2015-05-08 2015-07-15 哈尔滨工业大学 一种双目图像中显著性目标的距离测量方法
CN109766924A (zh) * 2018-12-20 2019-05-17 东南大学 基于图像信息熵与自适应阈值daisy特征点的图像检测方法
WO2021011581A1 (en) * 2019-07-15 2021-01-21 Memorial Sloan Kettering Cancer Center Image-based predictive model for lung cancer
CN115482382A (zh) * 2022-09-17 2022-12-16 北京工业大学 一种基于Transformer架构的图像语义分割方法
CN116402742A (zh) * 2023-01-17 2023-07-07 有件(嘉兴)网络科技有限公司 一种汽车钣金件表面缺陷的视觉检测方法及***
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN117036686A (zh) * 2023-06-29 2023-11-10 南京邮电大学 一种基于自注意力与卷积特征融合的语义分割方法
CN117522896A (zh) * 2023-11-22 2024-02-06 深圳职业技术大学 基于自注意力的图像分割方法及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
裴雪扬: "考虑结构模态识别不确定性的传感器优化布置理论研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 01, 15 January 2021 (2021-01-15), pages 140 - 98 *

Also Published As

Publication number Publication date
CN117889867B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
Zhou et al. Efficient road detection and tracking for unmanned aerial vehicle
CN107274445B (zh) 一种图像深度估计方法和***
EP2386998B1 (en) A Two-Stage Correlation Method for Correspondence Search
CN111914698B (zh) 图像中人体的分割方法、分割***、电子设备及存储介质
CN114365201A (zh) 结构注释
CN111311666A (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN112947419B (zh) 避障方法、装置及设备
CN112883850A (zh) 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN112633274A (zh) 一种声呐图像目标检测方法、装置、电子设备
CN110827320A (zh) 基于时序预测的目标跟踪方法和装置
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN114332644B (zh) 一种基于视频卫星数据的大视场交通密度获取方法
CN108647605B (zh) 一种结合全局颜色与局部结构特征的人眼凝视点提取方法
CN109558877B (zh) 基于kcf的海上目标跟踪算法
CN112801021B (zh) 基于多级语义信息的车道线检测方法及***
Chen et al. An image restoration and detection method for picking robot based on convolutional auto-encoder
CN113421210A (zh) 一种基于双目立体视觉的表面点云重建方法
CN105809719B (zh) 一种基于像素多编码表匹配的对象跟踪方法
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN117889867B (zh) 一种基于局部自注意力移动窗口算法的路径规划方法
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用
Dryanovski et al. Real-time pose estimation with RGB-D camera
CN115272450A (zh) 一种基于全景分割的目标定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant