CN112948464B

CN112948464B - 一种基于强化学习的避碰智能机器人

Info

Publication number: CN112948464B
Application number: CN202110237543.5A
Authority: CN
Inventors: 张晓琴
Original assignee: Chongqing Industry Polytechnic College
Current assignee: Chongqing Industry Polytechnic College
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-09-17
Anticipated expiration: 2041-03-04
Also published as: CN112948464A

Abstract

本发明公开了一种基于强化学习的避碰智能机器人，所述数据采集模块用于采集机器人的数据信息和周围的环境信息；所述定位模块用于获取机器人移动的坐标和障碍物的坐标；所述数据处理模块用于接收数据信息和环境信息进行处理并将其一同发送至数据分析模块；所述数据分析模块用于接收数据处理模块发送的数据并进行分析计算，得到前移排序集和障影排序集；所述统计预警模块用于接收前移排序集和障影排序集并进行统计和预警操作，所述调控模块用于对机器人的运行进行调控；本发明用于解决不能根据机器人的移动状态和障碍物状态进行综合分析为机器人的运行进行预警并及时进行学习和调整的问题。

Description

一种基于强化学习的避碰智能机器人

技术领域

本发明涉及智能机器人技术领域，尤其涉及一种基于强化学习的避碰智能机器人。

背景技术

智能机器人至少要具备以下三个要素：一是感觉要素，用来认识周围环境状态；二是运动要素，对外界做出反应性动作；三是思考要素，根据感觉要素所得到的信息，思考出采用什么样的动作。感觉要素包括能感知视觉、接近、距离等的非接触型传感器和能感知力、压觉、触觉等的接触型传感器。这些要素实质上就是相当于人的眼、鼻、耳等五官，它们的功能可以利用诸如摄像机、图像传感器、超声波传成器、激光器、导电橡胶、压电元件、气动元件、行程开关等机电元器件来实现；

高级智能机器人具有感觉，识别，推理和判断能力，同样可以根据外界条件的变化，在一定范围内自行修改程序。所不同的是，修改程序的原则不是由人规定的，而是机器人自己通过学习，总结经验来获得修改程序的原则。

现有的避碰智能机器人存在的缺陷是：不能根据机器人的移动状态和障碍物状态进行综合分析为机器人的运行进行预警并及时进行学习和调整的问题。

发明内容

本发明的目的在于提供一种基于强化学习的避碰智能机器人，本发明所要解决的技术问题为：

如何解决现有方案中不能根据机器人的移动状态和障碍物状态进行综合分析为机器人的运行进行预警并及时进行学习和调整的问题。

本发明的目的可以通过以下技术方案实现：一种基于强化学习的避碰智能机器人，包括数据采集模块、定位模块、数据处理模块、数据分析模块、统计预警模块和调控模块；

所述数据采集模块用于采集机器人的数据信息和周围的环境信息，该数据信息包含机器人的尺寸数据、移动数据和电量数据；该环境信息包含障碍物的类型数据和障碍物之间的联系数据，将数据信息和环境信息发送至数据处理模块；

所述定位模块用于获取机器人移动的坐标得到第一坐标集，获取障碍物的坐标得到第二坐标集，将第一坐标集和第二坐标集分类组合，得到坐标信息集，将坐标信息集发送至数据分析模块；

所述数据处理模块用于接收数据信息和环境信息进行处理，得到尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据，并将其一同发送至数据分析模块；

所述数据分析模块用于接收尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集并进行分析计算，得到前移排序集和障影排序集；

所述统计预警模块用于接收前移排序集和障影排序集并进行统计和预警操作，具体的步骤包括：

步骤一：接收前移排序集和障影排序集，将预设的标准前移阈值标记为P1，将预设的标准障影阈值标记为P2，分别将其与前移排序集中的前移值Q_qy和障影排序集中的障影值Q_zy进行对比判断；

步骤二：若Q_qy≥P1且Q_zy≥P2，则判定机器人可以高效移动并且可以正常避开障碍物，生成第一预警信号；若Q_qy＜P1且Q_zy≥P2，则判定机器人低效移动并且可以正常避开障碍物，生成第二预警信号；若Q_qy≥P1且Q_zy＜P2，则判定机器人可以高效移动但不能避开障碍物，生成第三预警信号，并将第三预警信号对应的前移值和障影值分别标记为第一统计前移值和第一统计障影值；若Q_qy＜P1且Q_zy＜P2，则判定机器人低效移动并且不能避开障碍物，生成第四预警信号，并将第四预警信号对应的前移值和障影值分别标记为第二统计前移值和第二统计障影值；

步骤三：将第一统计前移值和第一统计障影值以及第二统计前移值和第二统计障影值发送至调控模块；

所述调控模块用于对机器人的运行进行调控。

优选的，所述数据处理模块用于接收数据信息和环境信息进行处理的具体步骤包括：

S21：接收数据信息和环境信息，获取数据信息中机器人的尺寸数据、移动数据和电量数据；

S22：将尺寸数据中最大的宽度设定为第一测量值，并将其标记为YCi,i＝1,2,3...n；将尺寸数据中最大的厚度设定为第二测量值，并将其标记为ECi,i＝1,2,3...n；将尺寸数据中的高度设定为第三测量值，并将其标记为SCi,i＝1,2,3...n；将标记的第一测量值、第二测量值和第三测量值进行归一化处理并取值组合，得到尺寸处理数据；

S23：将移动数据中的最大移动速率设定为移动上限数据，并将其标记为YSi,i＝1,2,3...n；将移动数据中的最大加速度设定为移动加速数据，并将其标记为YJi,i＝1,2,3...n；将标记的移动上限数据和移动加速数据进行归一化处理并取值组合，得到移动处理数据；

S24：将电量数据中的实时电量标记为第一测电数据，并将其标记为CDYi,i＝1,2,3...n；将电量数据中的待机耗电数据标记为第二测电数据，并将其标记为CDEi,i＝1,2,3...n；将电量数据中的移动耗电数据标记为第三测电数据，并将其标记为CDSi,i＝1,2,3...n；将标记的第一测电数据、第二测电数据和第三测电数据进行归一化处理并取值组合，得到电量处理数据；

S25：获取环境信息中障碍物的类型数据和障碍物之间的联系数据；

S26：设定不同的障碍物类型对应不同的障碍预设值，将障碍物的类型数据中的障碍物类型与所有的障碍物类型进行匹配获取对应的障碍预设值并将其标记为ZLYik,i＝1,2,3...n；k＝1,2；将若干个障碍预设值进行归一化处理并取值组合，得到类型处理数据；其中，ZLYik包含可移动障碍物的障碍预设值和不可移动障碍物的障碍预设值；

S27：将障碍物之间的联系数据中的空间高度设定为第一障测数据，并将其标记为YZCi,i＝1,2,3...n；将障碍物之间的联系数据中的空间最大宽度设定为第二障测数据，并将其标记为EZCi,i＝1,2,3...n；将障碍物之间的联系数据中的空间最小宽度设定为第三障测数据，并将其标记为SZCi,i＝1,2,3...n；将标记的第一障测数据、第二障测数据和第三障测数据进行归一化处理并取值组合，得到联系处理数据。

优选的，所述数据分析模块进行分析操作的具体步骤包括：

S31：获取归一化处理的尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集；

S32：利用公式获取机器人移动的前移值，该公式为：

其中，Q_qy表示为前移值，μ表示为预设的前移修正因子，a1、a2表示为不同的比例系数，YSi表示为移动上限数据，CDYi表示为第一测电数据，CDEi表示为第二测电数据，CDSi表示为第三测电数据，t1表示为机器人待机耗电的时长，t2表示为机器人移动耗电的时长，t3表示为机器人移动加速的时长；

S33：将前移值进行降序排列得到前移排序集；

S34：根据坐标信息集中第一坐标集的机器人移动的实时坐标和第二坐标集中障碍物的坐标并获取之间的距离值将其标记为D1；

S35：利用公式获取障碍物的障影值，该公式为：

其中，Q_zy表示为障影值，α表示为预设的障影修正因子，b1、b2、b3、b4表示为不同的比例系数，YCi表示为第一测量值，ECi表示为第二测量值，SCi表示为第三测量值，YZCi表示为第一障测数据，EZCi表示为第二障测数据，SZCi表示为第三障测数据，ZLYik表示为障碍预设值；

S36：将障影值进行降序排列得到障影排序集。

优选的，所述调控模块用于对机器人的运行进行调控，具体的步骤包括：

S41：接收第一统计前移值和第一统计障影值以及第二统计前移值和第二统计障影值；

S42：获取第一统计前移值对应的移动速度并将其标记为第一预警速度，获取第一统计前移值对应的实时电量并将其标记为第一预警电量，获取第一统计障影值对应的联系数据并将其标记为第一预警尺寸，并将机器人与障碍物之间的距离值标记为第一预警距离；根据第一预警距离、第一预警尺寸、第一预警电量和第一预警速度对机器人遇见障碍物时控制机器人的移动速度和移动方向；

S43：获取第二统计前移值对应的移动速度并将其标记为第二预警速度，获取第二统计前移值对应的实时电量并将其标记为第二预警电量，获取第二统计障影值对应的联系数据并将其标记为第二预警尺寸，并将机器人与障碍物之间的距离值标记为第二预警距离；根据第二预警距离、第二预警尺寸、第二预警电量和第二预警速度对机器人遇见障碍物时控制机器人的移动方向。

本发明的有益效果：

本发明公开的各个方面，通过数据采集模块、定位模块、数据处理模块、数据分析模块、统计预警模块和调控模块之间的配合使用，可以达到根据机器人的移动状态和障碍物状态进行综合分析为机器人的运行进行预警并及时进行学习和调整的目的；

利用数据采集模块采集机器人的数据信息和周围的环境信息，该数据信息包含机器人的尺寸数据、移动数据和电量数据；该环境信息包含障碍物的类型数据和障碍物之间的联系数据，将数据信息和环境信息发送至数据处理模块；通过采集机器人的数据信息和周围的环境信息并进行处理分析，为机器人的避碰和预警学习以及调整提供了有效的数据支撑；

利用定位模块获取机器人移动的坐标得到第一坐标集，获取障碍物的坐标得到第二坐标集，将第一坐标集和第二坐标集分类组合，得到坐标信息集，将坐标信息集发送至数据分析模块；通过对机器人的移动以及障碍物的位置进行定位，可以为机器人改变运行方向提供数据支撑；

利用数据处理模块接收数据信息和环境信息进行处理，得到尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据，并将其一同发送至数据分析模块；通过对数据信息和环境信息比那个进行处理，便于将各个数据项之间建立联系提高数据处理的效率和处理的准确性；

利用数据分析模块接收尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集并进行分析计算，得到前移排序集和障影排序集；通过对处理后的各个数据进行计算建立联系得到前移值和障影，便于对机器人的移动和障碍物之间的状态进行分析；

利用统计预警模块接收前移排序集和障影排序集并进行统计和预警操作，利用调控模块对机器人的运行进行调控，通过对数据进行统计和预警，将碰撞后的数据进行标注和学习并对下一个障碍物进行调控达到智能学习的目的。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于强化学习的避碰智能机器人的模块框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于强化学习的避碰智能机器人，包括数据采集模块、定位模块、数据处理模块、数据分析模块、统计预警模块和调控模块；

所述数据处理模块用于接收数据信息和环境信息进行处理，得到尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据，并将其一同发送至数据分析模块；所述数据处理模块用于接收数据信息和环境信息进行处理的具体步骤包括：

接收数据信息和环境信息，获取数据信息中机器人的尺寸数据、移动数据和电量数据；

将尺寸数据中最大的宽度设定为第一测量值，并将其标记为YCi,i＝1,2,3...n；将尺寸数据中最大的厚度设定为第二测量值，并将其标记为ECi,i＝1,2,3...n；将尺寸数据中的高度设定为第三测量值，并将其标记为SCi,i＝1,2,3...n；将标记的第一测量值、第二测量值和第三测量值进行归一化处理并取值组合，得到尺寸处理数据；

将移动数据中的最大移动速率设定为移动上限数据，并将其标记为YSi,i＝1,2,3...n；将移动数据中的最大加速度设定为移动加速数据，并将其标记为YJi,i＝1,2,3...n；将标记的移动上限数据和移动加速数据进行归一化处理并取值组合，得到移动处理数据；

将电量数据中的实时电量标记为第一测电数据，并将其标记为CDYi,i＝1,2,3...n；将电量数据中的待机耗电数据标记为第二测电数据，并将其标记为CDEi,i＝1,2,3...n；将电量数据中的移动耗电数据标记为第三测电数据，并将其标记为CDSi,i＝1,2,3...n；将标记的第一测电数据、第二测电数据和第三测电数据进行归一化处理并取值组合，得到电量处理数据；

获取环境信息中障碍物的类型数据和障碍物之间的联系数据；

设定不同的障碍物类型对应不同的障碍预设值，将障碍物的类型数据中的障碍物类型与所有的障碍物类型进行匹配获取对应的障碍预设值并将其标记为ZLYik,i＝1,2,3...n；k＝1,2；将若干个障碍预设值进行归一化处理并取值组合，得到类型处理数据；其中，ZLYik包含可移动障碍物的障碍预设值和不可移动障碍物的障碍预设值；

将障碍物之间的联系数据中的空间高度设定为第一障测数据，并将其标记为YZCi,i＝1,2,3...n；将障碍物之间的联系数据中的空间最大宽度设定为第二障测数据，并将其标记为EZCi,i＝1,2,3...n；将障碍物之间的联系数据中的空间最小宽度设定为第三障测数据，并将其标记为SZCi,i＝1,2,3...n；将标记的第一障测数据、第二障测数据和第三障测数据进行归一化处理并取值组合，得到联系处理数据；

所述数据分析模块用于接收尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集并进行分析计算，得到前移排序集和障影排序集；所述数据分析模块进行分析操作的具体步骤包括：

获取归一化处理的尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集；

利用公式获取机器人移动的前移值，该公式为：

将前移值进行降序排列得到前移排序集；

根据坐标信息集中第一坐标集的机器人移动的实时坐标和第二坐标集中障碍物的坐标并获取之间的距离值将其标记为D1；

利用公式获取障碍物的障影值，该公式为：

将障影值进行降序排列得到障影排序集；

所述调控模块用于对机器人的运行进行调控，具体的步骤包括：

接收第一统计前移值和第一统计障影值以及第二统计前移值和第二统计障影值；

获取第一统计前移值对应的移动速度并将其标记为第一预警速度，获取第一统计前移值对应的实时电量并将其标记为第一预警电量，获取第一统计障影值对应的联系数据并将其标记为第一预警尺寸，并将机器人与障碍物之间的距离值标记为第一预警距离；根据第一预警距离、第一预警尺寸、第一预警电量和第一预警速度对机器人遇见障碍物时控制机器人的移动速度和移动方向；

获取第二统计前移值对应的移动速度并将其标记为第二预警速度，获取第二统计前移值对应的实时电量并将其标记为第二预警电量，获取第二统计障影值对应的联系数据并将其标记为第二预警尺寸，并将机器人与障碍物之间的距离值标记为第二预警距离；根据第二预警距离、第二预警尺寸、第二预警电量和第二预警速度对机器人遇见障碍物时控制机器人的移动方向；

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置。

本发明的工作原理：本发明实施例中，通过数据采集模块、定位模块、数据处理模块、数据分析模块、统计预警模块和调控模块之间的配合使用，可以达到根据机器人的移动状态和障碍物状态进行综合分析为机器人的运行进行预警并及时进行学习和调整的目的；

利用数据分析模块接收尺寸处理数据、移动处理数据、电量处理数据、类型处理数据和联系处理数据以及坐标信息集并进行分析计算，利用公式

获取机器人移动的前移值；将前移值进行降序排列得到前移排序集；利用公式

获取障碍物的障影值；将障影值进行降序排列得到障影排序集；通过对处理后的各个数据进行计算建立联系得到前移值和障影，便于对机器人的移动和障碍物之间的状态进行分析；

在本发明所提供的实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个控制模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于强化学习的避碰智能机器人，其特征在于，包括数据采集模块、定位模块、数据处理模块、数据分析模块、统计预警模块和调控模块；

所述调控模块用于对机器人的运行进行调控。

2.根据权利要求1所述的一种基于强化学习的避碰智能机器人，其特征在于，所述数据处理模块用于接收数据信息和环境信息进行处理的具体步骤包括：

3.根据权利要求1所述的一种基于强化学习的避碰智能机器人，其特征在于，所述数据分析模块进行分析操作的具体步骤包括：

S32：利用公式获取机器人移动的前移值，该公式为：

S33：将前移值进行降序排列得到前移排序集；

S35：利用公式获取障碍物的障影值，该公式为：

S36：将障影值进行降序排列得到障影排序集。

4.根据权利要求1所述的一种基于强化学习的避碰智能机器人，其特征在于，所述调控模块用于对机器人的运行进行调控，具体的步骤包括：