CN110874496A

CN110874496A - 基于强化学习的楼栋摆放方法、装置、存储介质及计算机设备

Info

Publication number: CN110874496A
Application number: CN202010064300.1A
Authority: CN
Inventors: 梁容铭; 利啟东; 高玮; 胡盼盼; 佟博; 黄仲强; 周玥; 张坚琳
Original assignee: Guangdong Bozhilin Robot Co Ltd
Current assignee: Guangdong Bozhilin Robot Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-03-10

Abstract

本发明提出一种基于强化学习的楼栋摆放方法、装置、存储介质及计算机设备，该方法包括获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的；采用对应的摆放方式，将当前待摆放楼栋摆放至地块中。通过本发明能够实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

Description

基于强化学习的楼栋摆放方法、装置、存储介质及计算机设备

技术领域

本发明涉及建筑设计技术领域，尤其涉及一种基于强化学习的楼栋摆放方法、装置、存储介质及计算机设备。

背景技术

随着城市化进程的不断推进，高层建筑的楼群密度不断提高，各地也相继推出新的楼栋间距标准，而随着新的楼栋标准的实施，楼栋建筑间需要满足的间距需求更加严格。

相关技术中，设计师在考虑楼栋建筑的摆放问题时，通常是采用排布算法进行规划，例如，将所有待摆放的楼栋（模型）初始全都随机摆放至地块（模型）中，而后将每栋楼移动到合理的位置。

这种方式下，移动楼栋的动作空间大，并且一次需要移动很多步才有效果等，较难达到楼栋摆放的最优解，加重设计师的压力，并且楼栋摆放效果不佳。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于强化学习的楼栋摆放方法、装置、存储介质及计算机设备，能够实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

本发明第一方面实施例提出的基于强化学习的楼栋摆放方法，包括：获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；采用楼栋摆放模型，确定与所述当前地块信息、所述楼栋信息对应的摆放方式；所述楼栋摆放模型是预先采用强化学习方法训练得到的；采用所述对应的摆放方式，将所述当前待摆放楼栋摆放至所述地块中。

本发明第一方面实施例提出的基于强化学习的楼栋摆放方法，通过获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息，并采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的，以及采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

本发明第二方面实施例提出的基于强化学习的楼栋摆放装置，包括：获取模块，用于获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；第一确定模块，用于采用楼栋摆放模型，确定与所述当前地块信息、所述楼栋信息对应的摆放方式；所述楼栋摆放模型是预先采用强化学习方法训练得到的；摆放模块，用于采用所述对应的摆放方式，将所述当前待摆放楼栋摆放至所述地块中。

本发明第二方面实施例提出的基于强化学习的楼栋摆放装置，通过获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息，并采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的，以及采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

本发明第三方面实施例提出的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面实施例提出的基于强化学习的楼栋摆放方法。

本发明第三方面实施例提出的计算机可读存储介质，通过获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息，并采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的，以及采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

本发明第四方面实施例提出的计算机设备，包括壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述计算机设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行：本发明第一方面实施例提出的基于强化学习的楼栋摆放方法。

本发明第四方面实施例提出的计算机设备，通过获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息，并采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的，以及采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图；

图2为本发明实施例中的地块示意图；

图3为本发明实施例中摆放楼栋后的立体效果示意图；

图4为本发明实施例中摆放楼栋后的平面效果示意图；

图5是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图；

图6为本发明实施例中一应用示意图；

图7为本发明实施例中另一应用示意图；

图8是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图；

图9为本发明实施例中另一应用示意图；

图10是本发明一实施例提出的基于强化学习的楼栋摆放装置的结构示意图；

图11是本发明另一实施例提出的基于强化学习的楼栋摆放装置的结构示意图；

图12是本发明一实施例提出的计算机设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图。

本实施例以该基于强化学习的楼栋摆放方法被配置为基于强化学习的楼栋摆放装置中来举例说明。

本实施例中基于强化学习的楼栋摆放方法可以被配置在基于强化学习的楼栋摆放装置中，基于强化学习的楼栋摆放装置可以设置在服务器中，或者也可以设置在电子设备中，本发明实施例对此不作限制。

本实施例以基于强化学习的楼栋摆放方法被配置在电子设备中为例。

其中，电子设备例如智能手机、平板电脑、个人数字助理等具有各种操作***的硬件设备。

需要说明的是，本发明实施例的执行主体，在硬件上可以例如为电子设备中的中央处理器（Central Processing Unit，CPU），在软件上可以例如为电子设备中的基于强化学习的楼栋摆放类的服务，对此不作限制。

参见图1，该方法包括：

S101：获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息。

参见图2，图2为本发明实施例中的地块示意图，在初始摆放时，该地块可以是一个空的地块。

本发明实施例在具体执行的过程中，当待摆放楼栋的数量为多栋时，由于是逐栋地将各待摆放楼栋摆放至地块中，因此，在需要摆放当前待摆放楼栋时，地块中可能已经存在已摆放的楼栋。

由此，在每次摆放一栋楼栋时，均确定地块在已摆放楼栋的基础上所具有的地块信息，并作为当前地块信息，以及确定当前待摆放楼栋的楼栋信息，从而作为后续楼栋摆放模型的输入，由此，使得每次摆放当前待摆放楼栋时，所确定的摆放方式均与当前地块信息和楼栋信息相适配，摆放效果更为精准。

地块的当前地块信息可以被视为一个标记[L，W]，其中，L代表地块的长，W代表地块的宽（该地块的长和宽可以被作为当前地块信息），在每次摆放一个新的楼栋后，地块的当前地块信息均会对应地产生更新，未摆放楼栋的地块可以被称为空的地块，该空的地块信息也可以表示为标记[L，W]，当摆放第一个楼栋之前，当前地块信息即为空的地块信息。

当前待摆放楼栋的楼栋信息也可以表示为一个标记[n，X]，分别代表n栋楼的X个参数值，X例如为5，即n栋楼的5个参数值：楼栋左上角点的横坐标，楼栋左上角点的纵坐标，楼栋的长，楼栋的宽，楼栋的高，如果该楼栋尚未放置进地块，则其五个参数值全是0。

S102：采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的。

其中，该楼栋摆放模型是预先采用强化学习方法训练得到的。

其中的强化学习方法可以例如为深度Q学习方法（Deep Q-network, DQN），当然，也可以采用其他任意可能的强化学习方法训练纠错模型，对此不作限制。

上述的楼栋摆放模型，已采用强化学习方法学习到样本地块信息、样本楼栋信息，以及对应的样本摆放方式之间的对应关系，由此，在上述获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息之后，可以将当前地块信息和楼栋信息输入到楼栋摆放模型，根据楼栋摆放模型的输出确定对应的摆放方式。

上述对应的摆放方式可以例如为根据楼栋摆放模型所确定的坐标位置，该坐标位置是与当前地块信息，以及楼栋信息相对应的，并且当前地块信息，以及楼栋信息可以是基于一个基准坐标轴所确定的相对的信息，由此，该坐标位置也可以是在该基准坐标轴下的坐标位置，对此不作限制。

本发明实施例在具体执行的过程中，楼栋摆放模型已学习得到样本地块信息、样本楼栋信息，以及对应的样本摆放方式之间的对应关系，楼栋摆放模型是采用多个样本地块信息、多个样本楼栋信息，以及与各样本地块信息、各样本楼栋信息所对应的样本摆放方式，对初始的楼栋摆放模型采用强化学习方法训练得到的。

上述的初始的楼栋摆放模型可以例如为神经网络模型，当然，神经网络模型仅仅是实现训练楼栋摆放模型的方法的一种可能的实现方式，在实际执行过程中，可以采用其它任意可能的能够模拟人类***经网络的模型来实现训练楼栋摆放模型的方法，对此不作限制。

S103：采用对应的摆放方式，将当前待摆放楼栋摆放至地块中。

在上述确定了与当前地块信息、楼栋信息对应的摆放方式后，可以直接采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，由此实现直接基于楼栋摆放的最优解进行摆放。

参见图3和图4，图3为本发明实施例中摆放楼栋后的立体效果示意图，图4为本发明实施例中摆放楼栋后的平面效果示意图。

本发明实施例中，在将当前待摆放楼栋摆放至地块中后，还可以确定摆放当前待摆放楼栋后的地块的第一地块信息，采用第一地块信息对当前地块信息进行更新。

其中，摆放了当前待摆放楼栋后的地块信息，可以被称为第一地块信息，也即，每次摆放一栋楼栋后，可以对地块信息进行更新，以保证每次根据楼栋摆放模型所确定的摆放方式，均是最优解，实现逐栋地采用最优解进行摆放。

可选地，将当前待摆放楼栋摆放至地块中后，还采用新的待摆放楼栋的新楼栋信息更新当前待摆放楼栋的楼栋信息。

上述的过程可以具体如下：

当前可以在地块中摆放楼栋A，此时所确定的地块信息为当前地块信息，而后，将当前地块信息和楼栋A的楼栋信息作为楼栋摆放模型的输入，并根据楼栋摆放模型的输出确定与楼栋A和当前地块信息对应的摆放方式，从而采用对应的摆放方式在地块中摆放楼栋A，当摆放了楼栋A之后，确定地块的第一地块信息，并在下一次摆放楼栋B时，将第一地块信息和楼栋B的楼栋信息作为楼栋摆放模型的输入，并根据楼栋摆放模型的输出确定与楼栋B和第一地块信息对应的摆放方式，从而摆放楼栋B，以此类推，对全部需要摆放的楼栋逐栋地进行摆放。

本实施例中，通过获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息，并采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的，以及采用对应的摆放方式，将当前待摆放楼栋摆放至地块中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。

图5是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图。

本实施例中，以摆放方式包括：基准楼栋，基准楼栋对应的可摆放位置信息，以及与基准楼栋对应的摆放角度进行示例，具体参见下述。

参见图5，该方法包括：

S501：在对初始的楼栋摆放模型采用强化学习方法训练时，确定样本地块的样本地块信息，并根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息。

其中，用于训练初始的楼栋摆放模型的地块，可以被称为样本地块，样本地块的当前地块信息，可以被称为样本当前地块信息。

参见图6，图6为本发明实施例中一应用示意图，图6中示出了样本地块中的当前已摆放样本楼栋61，并且示出了当前已摆放样本楼栋61（楼栋A和楼栋B）的影响范围62，该影响范围62相关的信息，可以被称为影响范围信息（例如，形状、坐标、面积等），另外，图6中还示出了当前已摆放样本楼栋的可摆放位置63，该可摆放位置63相关的信息，可以被称为可摆放位置信息（例如，形状、坐标、面积等），上述的影响范围意义在于在该区域内是不允许再摆放楼栋的，否则就不达到各楼栋之间的日照及间距关系，而上述的可摆放位置63的意义在于可以在该区域摆放楼栋，本发明实施例中可摆放位置63可以是比影响范围62稍微大一点的同心圆。

S502：根据可摆放位置信息，从当前已摆放样本楼栋确定样本基准楼栋。

本发明实施例中以可摆放位置信息为上述图6中可摆放位置63的面积进行示例，由此，可摆放位置信息为楼栋A的可摆放位置63的面积，以及楼栋B的可摆放位置63的面积。

上述在确定了各已摆放楼栋的可摆放位置信息之后，可以将可摆放位置信息所指示的面积值较大的可摆放位置对应的楼栋作为基准楼栋。

例如，楼栋B的可摆放位置占据的面积大于楼栋A的可摆放位置占据的面积，由此，可以将楼栋B确定为基准楼栋。

上述的基准楼栋可以被用于作为摆放下一栋楼栋时的参考楼栋，对此不作限制。

上述在确定根据可摆放位置信息，从当前已摆放样本楼栋确定样本基准楼栋B后，可以以基准楼栋B的中心点为圆心，建立直角坐标系，参见图7，图7为本发明实施例中另一应用示意图，还可以采用预标注的摆放角度（θ角度）和基准楼栋B作为执行强化训练的数据，对初始的楼栋摆放模型进行模型训练，在图7中，预标注的摆放角度θ，可以是基准楼栋B的中心点和位置点c（位置点c的确定可以参见下述）之间的直线段，与前述直角坐标系的X坐标轴形成的夹角，该位置点c在基准楼栋B的可摆放位置所占据的区域外边缘上。

S503：根据样本基准楼栋的样本楼栋信息、样本基准楼栋对应的可摆放位置信息，结合预标注的摆放角度对初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则初始的楼栋摆放模型训练完毕。

上述确定了基准楼栋B和预标注的摆放角度，可以根据基准楼栋B的样本楼栋信息和预标注的摆放角度，对初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则初始的楼栋摆放模型训练完毕。

上述在对初始的楼栋摆放模型采用强化学习方法训练时，确定样本地块的样本地块信息，并根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息，根据可摆放位置信息，从当前已摆放样本楼栋确定样本基准楼栋，以及根据样本基准楼栋的样本楼栋信息，结合预标注的摆放角度对初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则初始的楼栋摆放模型训练完毕，通过强化学习方法进行楼栋摆放模型的训练，使得所训练的楼栋摆放模型能够取得较好的摆放位置最优解的确定效果。

S504：获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息。

S505：采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的。

S504- S505的步骤的说明可以具体参见上述实施例，对此不作限制。

S506：基于对应的摆放角度，将当前待摆放楼栋摆放至地块中；其中，摆放后的当前待摆放楼栋，与基准楼栋之间的相对角度满足摆放角度，且摆放后的当前待摆放楼栋摆放在可摆放位置信息所指示的可摆放位置边界上。

作为一个更具体的示例，参见图8，图8是本发明一实施例提出的基于强化学习的楼栋摆放方法的流程示意图，针对图8的描述可以参见下述：

（1）、输入一个空的地块以及本次所需放置的当前待摆放楼栋，其中空的地块信息可以表示为一个标记[L，W]，其中，L代表地块的长，W代表地块的宽，该空的地块信息的标记可以被记为sland，楼栋信息也可以表示为一个标记[n，X]，该楼栋信息的标记可以记为shouse，X例如为5，分别代表n栋楼的五个参数值：楼栋左上角点的横坐标x，楼栋左上角点的纵坐标y，楼栋的长l，楼栋的宽w，楼栋的高h，若该楼栋尚未摆放至地块，则其五个参数值x，y，l，w，h都为0，记此时的当前地块信息和楼栋信息的组合可以表示为标记[sland，shouse]，该当前地块信息和楼栋信息的组合的标记可以记为s。

（2）、将得到的s，输入楼栋摆放模型model中，楼栋摆放模型根据输入的信息输出一个动作a的指示：根据当前地块信息、楼栋信息确定一个实际的摆放角度α，以放置下一楼栋C，可以理解的是，训练的楼栋摆放模型可能存在一定的训练误差，由此，实际的摆放角度α可能和上述预标注的摆放角度θ之间存在一定的误差，而在理想状况下，实际的摆放角度α和上述预标注的摆放角度θ保持一致，本发明实施例在示例过程中，可以假设实际的摆放角度α和上述预标注的摆放角度θ保持一致。

（3）、确定基准楼栋，假设在一块矩形地块中已经放置了楼栋A和楼栋B，确定基准楼栋的过程可以参见上述针对图6的描述。

（4）、根据步骤（3）得到的基准楼栋B，以基准楼栋B的中点为圆心，建立直角坐标系，根据步骤（2）得到的实际的摆放角度α，则下一楼栋C放置在位置点c处，位置点c在：以基准楼栋B的中心点为起点且以实际的摆放角度α为方向的射线，与基准楼栋B的可摆放位置所占据的区域外边缘的交点处，如图9所示，图9为本发明实施例中另一应用示意图。

（5）、确定了位置点c后，将当前待摆放楼栋（楼栋C）摆放至位置点c处，而后，采用新的待摆放楼栋的新楼栋信息更新当前待摆放楼栋的楼栋信息，即shouse中第三行的五个值分别更新为：楼栋C所在位置的横坐标xC，楼栋C所在位置的纵坐标yC，楼栋C的长lC，楼栋C的宽wC，楼栋C的高hC，同时，sland中楼栋C所占的位置全部更新为hC。从而得到更新后的s’land（第一地块信息）和s’house（新楼栋信息），并把第一地块信息和新楼栋信息的组合表示为标记[s’land，s’house]，并将该标记记为s’。

（6）、将步骤（5）得到的s’输入预设评判***判断此时的状态（楼栋的位置及相互关系）是否符合规定的要求，其中，预设评判***可以是由设计师根据当地政府相关文件的规范以及结合公司实际情况制定的一套规则或标准，根据该规则或标准，输入s’，会得到一个分数score。

（7）、根据步骤（6）得到的score判断是否达到终止条件（score小于1或者所有楼栋均已放置上去），记为is_end，若is_end为False，储存此时的确定位置点c的过程中相关的数据[s，a，s’，r，is_end]，并将s=s’继续执行步骤（2），直到is_end为True，则结束本轮循环。

上述过程若为训练楼栋摆放模型的阶段，则可以将本轮储存的所有的[[s，a，s’，r，is_end]1，……，[s，a，s’，r，is_end]n]（其中的n为大于或者等于1的正整数）传递回训练中的楼栋摆放模型进行网络参数更新，它的Q值更新公式为：Q(s，a)=Q(s，a)+e(r+γQ(s’，a’)-Q(s，a))，其中e为更新步长，γ为奖赏折扣。

上述过程若为测试阶段，则可以直接逐步地确定出每次待摆放楼栋的摆放方式直至摆放完毕所有的楼栋。

本实施例中，实现在每次摆放楼栋时，直接根据预先训练的楼栋摆放模型确定最相适配的摆放方式，能够直接实现楼栋摆放的最优解，提升摆放效率，且楼栋摆放模型是预先采用强化学习方法训练得到的，由此，能够有效提升楼栋摆放效果。通过在对初始的楼栋摆放模型采用强化学习方法训练时，确定样本地块的样本地块信息，并根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息，根据可摆放位置信息，从当前已摆放样本楼栋确定样本基准楼栋，以及根据样本基准楼栋的样本楼栋信息，结合预标注的摆放角度对初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则初始的楼栋摆放模型训练完毕，通过强化学习方法进行楼栋摆放模型的训练，使得所训练的楼栋摆放模型能够取得较好的摆放位置最优解的确定效果。

图10是本发明一实施例提出的基于强化学习的楼栋摆放装置的结构示意图。

参见图10，装置100包括：

获取模块101，用于获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；

第一确定模块102，用于采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的；

摆放模块103，用于采用对应的摆放方式，将当前待摆放楼栋摆放至地块中。

可选地，一些实施例中，参见图11，装置100，还包括：

第二确定模块104，用于确定摆放当前待摆放楼栋后的地块的第一地块信息；

第一更新模块105，用于采用第一地块信息对当前地块信息进行更新。

可选地，一些实施例中，参见图11，装置100，还包括：

第二更新模块106，用于采用新的待摆放楼栋的新楼栋信息更新当前待摆放楼栋的楼栋信息。

可选地，一些实施例中，参见图11，楼栋摆放模型已学习得到样本地块信息、样本楼栋信息，以及对应的样本摆放方式之间的对应关系，楼栋摆放模型是采用多个样本地块信息、多个样本楼栋信息，以及与各样本地块信息、各样本楼栋信息所对应的样本摆放方式，对初始的楼栋摆放模型采用强化学习方法训练得到的。

可选地，一些实施例中，参见图11，摆放方式包括：基准楼栋，基准楼栋对应的可摆放位置信息，以及与基准楼栋对应的摆放角度，摆放模块103，具体用于：

基于对应的摆放角度，将当前待摆放楼栋摆放至地块中；其中，摆放后的当前待摆放楼栋，与基准楼栋之间的相对角度满足摆放角度，且摆放后的当前待摆放楼栋摆放在可摆放位置信息所指示的可摆放位置边界上。

可选地，一些实施例中，参见图11，装置100，还包括：

评分模块107，用于在对初始的楼栋摆放模型采用强化学习方法训练时，根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息；

根据可摆放位置信息，从当前已摆放样本楼栋确定样本基准楼栋；

根据样本基准楼栋的样本楼栋信息、样本基准楼栋对应的可摆放位置信息，结合预标注的摆放角度对初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则初始的楼栋摆放模型训练完毕。

需要说明的是，前述图1-图5实施例中对基于强化学习的楼栋摆放方法实施例的解释说明也适用于该实施例的基于强化学习的楼栋摆放装置100，其实现原理类似，此处不再赘述。

图12是本发明一实施例提出的计算机设备的结构示意图。

参见图12，本实施例的计算机设备120包括：壳体1201、处理器1202、存储器1203、电路板1204、电源电路1205，电路板1204安置在壳体1201围成的空间内部，处理器1202、存储器1203设置在电路板1204上；电源电路1205，用于为计算机设备120各个电路或器件供电；存储器1203用于存储可执行程序代码；其中，处理器1202通过读取存储器1203中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行：

获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；

采用楼栋摆放模型，确定与当前地块信息、楼栋信息对应的摆放方式；楼栋摆放模型是预先采用强化学习方法训练得到的；

采用对应的摆放方式，将当前待摆放楼栋摆放至地块中。

需要说明的是，前述图1-图5实施例中对基于强化学习的楼栋摆放方法实施例的解释说明也适用于该实施例的计算机设备120，其实现原理类似，此处不再赘述。

为了实现上述实施例，本申请实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例的基于强化学习的楼栋摆放方法。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于强化学习的楼栋摆放方法，其特征在于，所述方法包括：

采用楼栋摆放模型，确定与所述当前地块信息、所述楼栋信息对应的摆放方式；所述楼栋摆放模型是预先采用强化学习方法训练得到的；

采用所述对应的摆放方式，将所述当前待摆放楼栋摆放至所述地块中。

2.如权利要求1所述的基于强化学习的楼栋摆放方法，其特征在于，所述将所述当前待摆放楼栋摆放至所述地块中后，还包括：

确定摆放所述当前待摆放楼栋后的地块的第一地块信息；

采用所述第一地块信息对所述当前地块信息进行更新。

3.如权利要求2所述的基于强化学习的楼栋摆放方法，其特征在于，所述将所述当前待摆放楼栋摆放至所述地块中后，还包括：

采用新的待摆放楼栋的新楼栋信息更新所述当前待摆放楼栋的楼栋信息。

4.如权利要求1-3任一项所述的基于强化学习的楼栋摆放方法，其特征在于，所述楼栋摆放模型已学习得到样本地块信息、样本楼栋信息，以及对应的样本摆放方式之间的对应关系，所述楼栋摆放模型是采用多个样本地块信息、多个样本楼栋信息，以及与各所述样本地块信息、各所述样本楼栋信息所对应的样本摆放方式，对初始的楼栋摆放模型采用强化学习方法训练得到的。

5.如权利要求4所述的基于强化学习的楼栋摆放方法，其特征在于，所述摆放方式包括：基准楼栋，所述基准楼栋对应的可摆放位置信息，以及与所述基准楼栋对应的摆放角度，所述采用所述对应的摆放方式，将所述当前待摆放楼栋摆放至所述地块中，包括：

基于所述对应的摆放角度，将所述当前待摆放楼栋摆放至所述地块中；其中，所述摆放后的当前待摆放楼栋，与所述基准楼栋之间的相对角度满足所述摆放角度，且所述摆放后的当前待摆放楼栋摆放在所述可摆放位置信息所指示的可摆放位置边界上。

6.如权利要求5所述的基于强化学习的楼栋摆放方法，其特征在于，还包括：

在对初始的楼栋摆放模型采用强化学习方法训练时，根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息；

根据所述可摆放位置信息，从所述当前已摆放样本楼栋确定样本基准楼栋；

根据所述样本基准楼栋的样本楼栋信息、所述样本基准楼栋对应的可摆放位置信息，结合预标注的摆放角度对所述初始的楼栋摆放模型进行迭代训练，直至训练得到的楼栋摆放模型的评分值满足分数阈值，则所述初始的楼栋摆放模型训练完毕。

7.一种基于强化学习的楼栋摆放装置，其特征在于，所述装置包括：

获取模块，用于获取地块的当前地块信息，并获取当前待摆放楼栋的楼栋信息；

第一确定模块，用于采用楼栋摆放模型，确定与所述当前地块信息、所述楼栋信息对应的摆放方式；所述楼栋摆放模型是预先采用强化学习方法训练得到的；

摆放模块，用于采用所述对应的摆放方式，将所述当前待摆放楼栋摆放至所述地块中。

8.如权利要求7所述的基于强化学习的楼栋摆放装置，其特征在于，所述装置，还包括：

第二确定模块，用于确定摆放所述当前待摆放楼栋后的地块的第一地块信息；

第一更新模块，用于采用所述第一地块信息对所述当前地块信息进行更新。

9.如权利要求8所述的基于强化学习的楼栋摆放装置，其特征在于，所述装置，还包括：

第二更新模块，用于采用新的待摆放楼栋的新楼栋信息更新所述当前待摆放楼栋的楼栋信息。

10.如权利要求7-9任一项所述的基于强化学习的楼栋摆放装置，其特征在于，所述楼栋摆放模型已学习得到样本地块信息、样本楼栋信息，以及对应的样本摆放方式之间的对应关系，所述楼栋摆放模型是采用多个样本地块信息、多个样本楼栋信息，以及与各所述样本地块信息、各所述样本楼栋信息所对应的样本摆放方式，对初始的楼栋摆放模型采用强化学习方法训练得到的。

11.如权利要求10所述的基于强化学习的楼栋摆放装置，其特征在于，所述摆放方式包括：基准楼栋，所述基准楼栋对应的可摆放位置信息，以及与所述基准楼栋对应的摆放角度，所述摆放模块，具体用于：

12.如权利要求11所述的基于强化学习的楼栋摆放装置，其特征在于，所述装置，还包括：

评分模块，用于在对初始的楼栋摆放模型采用强化学习方法训练时，根据样本地块中当前已摆放样本楼栋的影响范围信息，确定可摆放位置信息；

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的基于强化学习的楼栋摆放方法。

14.一种计算机设备，包括壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述计算机设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行：