CN114341754B

CN114341754B - 对切割处理中的激光切割头运动的控制方法及设备和介质

Info

Publication number: CN114341754B
Application number: CN202080060138.4A
Authority: CN
Inventors: 亚历山大·帕拉吉济涅茨
Original assignee: Bystronic Laser AG
Current assignee: Bystronic Laser AG
Priority date: 2019-08-28
Filing date: 2020-08-19
Publication date: 2023-05-26
Anticipated expiration: 2040-08-19
Also published as: CN114341754A

Abstract

在一方面，本发明涉及用于对用于控制激光机器(L)的切割头(H)的控制指令(CI)进行计算的方法，该激光机器的切割头用于切割工件中的一组轮廓。所述方法包括：读取(S71)编码的切割计划(P)；以及借助于一组传感器信号(sens)连续地确定(S73)与由激光机器(L)进行的工件的处理相关的状态。此外，所述方法提供计算机实现的决策代理(DA)，所述决策代理(DA)使用编码的切割计划(P)和所确定的状态(s)通过访问训练模型动态地对加工头(H)接下来要采取的动作(a)进行计算并且基于计算出的动作来提供用于执行处理计划(P)的控制指令(CI)。

Description

对切割处理中的激光切割头运动的控制方法及设备和介质

技术领域

本发明涉及用于对用于控制激光切割机器的切割头的控制指令进行计算的方法、机器学习设备和这种机器学习设备中的决策代理以及相应的计算机程序。

背景技术

如今，激光切割机器广泛地用于金属板行业。这种机器的典型操作是对单独的典型闭合轮廓逐个执行切割，以便将工作部件从工件中分离。该操作与将热能注入至工件中(局部加热)、施加切割气体射流以及切割头的机械运动相关联。进行这些操作，切割顺序的概念在切割处理中非常重要。以下主要性能标准直接地受到切割顺序的影响：总循环时间(切割作业的处理时间)、机械运动的切割头与已被分离并可能倾斜的部件之间的碰撞风险、工件的特定区域的过热、机器部件的机械寿命等。如果最短处理路径和碰撞避免似乎是已解决的问题，则考虑材料中的热分布(特别地结合路径优化和碰撞避免)的最佳处理顺序由于自由度高而是相当复杂的问题。为了估计热分布需要进行昂贵的计算(典型的是离线的有限元(FE)模拟)。这使得不可能在合理的时间内为典型的机器控制器找到比“下一个最接近的可用邻居”切割策略更好的切割策略。切割路径优化本身是组合优化的NP难题(NP-hard)。

如图1所示，典型的加工计划1由工作部件2组成。机器控制器应用的标准加工顺序3是“下一个最接近的可用邻居”类型并按行布置。该顺序没有考虑到以上提及的工件过热问题中的任何问题，也没有考虑到切割部件的过度驱动问题。尽管可以应用一些启发式规则来改进标准加工顺序，但是这些规则可能不适用于不同的加工计划布局。由于加工顺序问题是复杂度n！的组合优化问题，因此在使用启发式规则的情况下，在加工处理结束时出现比标准加工顺序更糟糕的情况的机会非常高。使用机器学习解决旅行商问题(TSP)在科学文献[Bello等人于2017的Neural Combinatorial Optimization with ReinforcementLearning]中众所周知。与我们的问题相比，旅行商问题纯粹是算法问题并且由在旅行道路(图边缘)无国籍(独立于历史)的加权图中找到最短的汉密顿路径(Hamiltonian path)构成。换言之，旅行商问题在处理过程中保持静态，然而本发明要解决的问题是动态的，并且在每件被切割之后，其余件的保持情况都已经改变。TSP的随时间改变的案例图在文献中已知为时间图[O.Michail,An Introduction to Temporal Graphs:An AlgorithmicPerspective]。与静态案例相比，在时间图中求解TSP显示出增加的复杂性并且减少了得到多项式时间近似解的机会。

因此，在激光处理机器中存在待解决的动态问题，其中行进至下一个部件的可能性根据来自机器的实时状态观察结果而随时间改变。

美国专利公开2018169856描述了一种机器学习方法和一种机器学习设备，所述机器学习方法和机器学习设备旨在在考虑到诸如总处理时间、在处理区域中花费的时间、机器人驱动器电流的标准的情况下优化焊接机器人的轨迹。与专利2018169856中解决的问题不同，在激光切割中需要解决的问题不仅是要优化总处理时间或轴驱动器工作电流。激光切割处理与焊接的区别在于以下方面：

—在切割处理期间，工作部件从工件中物理分离。在薄金属板材料的情况下，所分离的部件竖立(倾斜)并因此(当激光机器的切割头与倾斜的部件碰撞时)产生碰撞风险的风险非常高。通过本发明解决了该问题。

—在切割处理期间会发生降低了厚材料的切割质量的热积聚。需要考虑该问题并且使用本文中提出的方法解决该问题。

发明内容

因此，本发明的目的是提供针对以上提及的问题的解决方案。特别地，在计算激光机器头的动作顺序时，应当避免倾斜的部件的碰撞风险并且应当考虑热积聚。

该目的通过根据所附独立权利要求的用于计算控制指令的方法、机器学习设备、决策代理和计算机程序来解决。在从属权利要求中和在下面的描述中描述了有利的方面、特征和实施方式以及优势。

根据第一方面，本发明涉及一种用于对用于控制激光机器的加工头(即切割头)的控制指令进行计算的方法。该方法是计算机实现的并且包括下面的步骤：

—读取或接收编码的处理计划，特别是切割计划。切割计划是带有数据的数据结构，其限定了哪些工件要被处理和所述工件被如何处理即需要在何处执行切割和需要如何执行切割以及应当使用何种形式的切割。通常，应尽可能高效地处理工件并且因此应当施加尽可能多的切割，以便从原始工件中获得尽可能多的切割工作部件。然而，处理计划未限定表示切割的顺序且因此表示切割路径的加工顺序(如其限定了首先应执行哪个切割以及其次执行哪个切割等)；

—借助于例如通过红外摄像装置拍摄的一组传感器信号例如光学传感器信号来连续地确定与工件的处理相关的状态；

—提供计算机实现的决策代理，所述决策代理使用编码的切割计划和所确定的状态通过访问训练模型动态地对加工头接下来要采取的动作进行计算并且基于计算出的动作来提供用于执行处理计划的控制指令。

在优选实施方式中，模型或神经网络接收状态(特别地，以多层图像形式，优选地以多层图像矩阵形式)和编码的切割计划作为输入，以及提供要转发至机器学习设备以供接下来执行的动作作为输出。因此，神经模型或模型影响数字输入特别是光学输入，并且更特别地影响图形输入。例如，切割计划也可以作为图形输入提供。

根据另一优选实施方式，适于在执行每个动作之后提供奖励函数和相应模块，所述动作将基于接收到的传感器信号接收奖励以及其中决策代理执行奖励函数以便使针对所有动作的全局奖励最大化。

根据另一优选实施方式，状态表示或包括激光机器的状态、已处理的工作部件的状态以及仍需处理的工作部件的状态，并且另外还可以表示工件的状态。因此，状态随时间动态地改变，并且特别是在对工件执行激光机器的动作之后以及更特别是在每次切割出工作部件之后动态地改变。这增加了问题解决方案的复杂度，因为与不随时间改变的静态相比需要实行更加多的计算。

用于确定状态的状态观察单元可以例如借助于实际加工情况(切割情况)的光学传感器信号来实现。在优选实施方式中，所述观察可以由红外(IR)摄像装置观察(加工期间实时记录的热力图)、材料变形、观察到的碰撞风险(倾斜的部件)、累积加工时间、驱动器温度等引起。列表不限于该特定传感器信号并且可以扩展。在另一优选实施方式中，不仅可以提供图像作为输入以供处理，还可以提供来自文件的数字数据。例如，切割计划可以以矢量图形格式或作为图像文件中的像素数据提供。因此，可以处理光学信号和/或图像以用于状态确定。优选地，处理若干个不同的光学输入，特别是两个不同的输入。在优选实施方式中，提供用作第一输入的第一图像，所述第一图像使用已切割出的部件和仍需被切割出的部件表示实际切割情况和切割成功。所述图像在切割部件每次完成之后都会改变。另外，提供用作第二输入的第二图像，所述第二图像表示工件中和/或切割出的部件中的热分布。第二图像是用于评估切割处理的质量的重要信息。第一输入和第二输入两者都被处理以用于状态确定。

根据又一优选实施方式，在由激光机器执行动作之后和/或执行动作期间，聚合经验数据。经验数据是指来自一组传感器的记录到的观察结果的数字数据，所述经验数据与激光机器(包括所确定的状态)相关。经验数据被聚合并被反馈(作为反馈)至模型或网络，以便连续地改进模型或网络(特别是提高模型的学习能力)。在负反馈的情况下，反馈记录的观察结果允许机器惩罚所生成的解决方案的元素并且对搜索空间进行进一步的探索，以及相反，在正反馈的情况下，反馈记录的观察结果允许机器将现有解决方案稳定为最佳解决方案。对于不同的物理机器，能够自适应其加工处理(从经验中“学习”)尤为重要，因为每个物理机器都会有轻微的条件变化例如通风变化和装配变化。

在另一优选实施方式中，状态是指或包括光学状态(通过光学传感器记录)并且可以以多层图像形式表示状态和/或将其表示为图形。所述多层图像或多层图像矩阵包括两个不同的参数：

1.正在处理的工件的第一层图像，其中已处理的部件与仍未处理的部件是可区分开的(特别地，可以通过自动物体识别工具例如算法将切割计划中的已执行的切割与仍需执行的切割区分开)，以及

2.工件的第二层图像，其中工件的热力图表示正在根据切割计划进行处理。在优选实施方式中，第二层图像可以借助于红外摄像装置获取，所述第二层图像表示在切割期间或在切割之后不久的空间和/或局部热分布。

该特征具有的重要技术优势在于：当确定接下来的动作特别是最佳切割顺序时可以考虑这两个方面并因此可以考虑到所有相关信息(即，由切割和倾斜的部件引起的问题以及由于过热引起的质量问题)。

术语“动作”被解释为用于控制激光的切割头的一组处理控制指令。因此，动作可以指切割步骤的顺序(可能需要改变原始切割计划)、电机驱动器的进给速率、限定切割速度(或加加速度(jerk)或加速度)、焦点偏移或其他切割参数设置。

在优选实施方式中，执行计算机视觉算法以在已处理的部件与仍要处理的部件之间进行区分。此处，可以执行对象分割算法和/或对象检测算法。

在另一优选实施方式中，可以将多层图像矩阵中的两个不同输入层聚合成一个单独的两部分构成(composition)。两部分构成是数字数据集，其表示热分布信息和处理状态信息(经处理的部件和仍需处理的部件)两者。多层图像矩阵中的两个不同输入层可以作为覆盖图像提供，所述多层图像矩阵中的两个不同输入层包括两种类型的信息或者可以以替选方式组合。

术语“状态”被解释为数字数据集，其表示激光处理的状态尤其是切割状态。因此，状态具有时间指示，因为状态动态地演变并且随着激光切割的进行而适时不同。该状态优选地具有如上指示的两个单独的组成部分。首先，该状态可以与切割计划相关，以便检测切割计划中的哪些部件已经被执行以及哪些部件尚未执行(且仍需被切割)。其次，该状态可以与切割区中的局部热分布相关。

根据另一优选实施方式，奖励函数选自包括以下的组：

—切割时间奖励函数，

—热优化奖励函数，

—温度积分测量奖励函数，以及

—碰撞避免奖励函数。

切割时间奖励函数奖励切割时间可以根据动作优化的那些动作。热优化奖励函数奖励切割处理的质量根据动作优化的那些动作，所述优化在于过热问题被避免或至少尽可能地减少。温度积分测量奖励函数随着时间提高了切割处理的质量。碰撞避免奖励函数避免了特别是在激光机器的切割头或激光机器的其他部件与已切割出的部件(可能会倾斜或掉出工件的其余网格状结构)之间的碰撞问题。

该特征具有可以施加不同奖励函数的技术优势，并且因此即使在一个单独的处理期间也可以选择不同的优化标准。特别地，当例如为了工件中的第一部件和为了工件中的第二部件而以不同的切割顺序(多个区)处理大的工件时，然后可以选定不同的优化标准例如用于第一部件的第一奖励函数和用于第二部件的第二奖励函数，这对于具有大量内部轮廓(孔)的部件以及在单独的内部优化中特别有用。如以上提及的，奖励函数可以针对不同的优化标准。然而，在优选实施方式中，施加了全局奖励函数，因为优化的目的是全局的并且通常将不同的奖励函数施加于每个部件是无用的。奖励函数不会作用于每个单独的部件，除非该部件具有很多内部轮廓(孔)。如之前提及的，在这种情况下，施加不同的奖励函数和/或单独的内部优化也会是有用的。

奖励函数集实现了不同的优化目标，并且更具体地实现了：切割路径优化、切割作业的处理时间、切割出的部件的质量等，如之前提及。

在另一优选实施方式中，针对特定的处理工作或者针对特定的工件或者甚至针对待处理的工件内的特定部分(区域)确定特定的奖励函数。这很有帮助，因为一个作业可以具有待切割的多个板。此外，区域特定优化例如对于复杂结构是有用的。

在另一优选实施方式中，奖励函数可以是通过使用用户限定的优先级作为施加于不同函数的权重的以上提及的所有奖励函数的线性(或多项式)组合，以便能够根据实际处理环境对不同函数进行优先级排序。

自学习代理可以通过所谓的Q表建模和/或根据所谓的Q表行动，可以借助于Q函数生成Q表。Q表正在将状态-动作组合的质量形式化，以用于针对加工(特别是切割)处理中的每一步骤计算接下来的动作。有关更多详细信息，请参阅Watkins,C.J.C.H.(1989),Learning from Delayed Rewards。Q表不能应用于加工顺序的情况，因为状态-动作空间相当地大。

在另一优选实施方式中，可以通过深度神经网络特别是深度卷积网络来表示Q函数。

在又一优选实施方式中，神经网络可以特别地在训练过程中利用经验回放技术。有关经验回放技术的更多详细信息，请参阅Schaul等人,Prioritized ExperienceReplay,2015。已知使用经验回放技术(也称为事后经验回放技术)以便随机化数据，从而消除观察结果顺序中的相关性并使数据分布变化平滑。迄今为止，通过执行经验回放，代理的在数据集中的在每个时间步骤下的经验(数据、状态)都被存储在存储器中，用于为学习过程提供反馈。通过将目标添加至输入空间中，可以表明存在多个目标以供代理观察。新的Q函数指示了在给定的当前状态的情况下采取每个动作对实现当前目标有多好。有关更多详细信息，请参阅Mnih等人,Playing Atari with Deep Reinforcement Learning,2013。

到目前为止，已经相对于要求保护的方法描述了本发明。本文中的特征、优点或替选实施方式可以分配给其他要求保护的对象(例如，计算机程序或分配给具有决策代理的机器学习设备)，反之亦然。换言之，相对于装置的要求保护或描述的主题可以使用在方法的上下文中描述或要求保护的特征来改进，反之亦然。在这种情况下，该方法的功能性特征分别由装置的结构单元体现，反之亦然。通常，在计算机科学中，软件实现方式和相应的硬件实现方式是等同的。因此，例如，用于“存储”数据的方法步骤可以利用存储单元和用以将数据写入存储器中的相应指令来执行。为了避免冗余，虽然该装置也可以用于相对于该方法描述的替选实施方式中，但是对于设备不再明确地描述这些实施方式。

根据另一方面，本发明涉及一种用于激光机器特别是激光切割机器的机器学习设备，所述机器学习设备适于执行以上提及的方法。特别地，机器学习设备可以包括：

—输入接口，所述输入接口用于接收编码的切割计划的；

—另外的输入接口，所述另外的输入接口用于接收来自一组传感器的传感器信号，所述传感器信号用于在切割和机器执行过程期间以及/或者在切割和机器执行过程中连续地确定状态；

—决策代理，所述决策代理可以包括或可以访问训练模型；

—输出接口，所述输出接口用于提供用于控制激光机器的切割头的控制指令。

机器学习设备可以另外包括或可以访问存储器。存储器可以适于存储代理的数据和/或适于存储训练模型。

在优选实施方式中，机器学习设备可以适于根据之前相对于所述方法提及的优选实施方式来执行。

在另一方面，本发明涉及如以上提及的机器学习设备中的决策代理。

在又一方面，本发明涉及一种包括程序元素的计算机程序，所述计算机程序在程序元素被加载至计算机的存储器中时引起计算机执行用于对用于根据以上提及的各方面控制激光机器的加工头的控制指令进行计算的方法的步骤。可以如下提供计算机程序：从外部服务器中下载以在本地提供。计算机程序可以存储在计算机可读介质中。

在又一方面，本发明涉及一种其上存储有程序元素的计算机可读介质，所述程序元素可以由计算机读取和执行，以便在所述程序元素由计算机执行时进行用于对用于控制激光机器的加工头的控制指令进行计算的方法的步骤。

通过计算机程序产品和/或计算机可读介质实现本发明的优点在于，可以容易地通过软件更新来采用已经存在的计算机实体(激光机器中的或与其相关的微型计算机或处理器)，以便如本发明提议的工作。

在下面给出了本申请中使用的术语的定义。

用于执行所述方法和用于提供控制指令的机器学习设备可以是个人计算机或计算机网络中的工作站，并且可以包括处理单元、***存储器和将包括***存储器的各种***组成部分耦接至处理单元的***总线。***总线可以是若干个类型的总线结构中的任何一种，所述总线结构包括存储器或存储器控制器总线、***总线和使用各种总线架构中的任何一种的本地总线。***存储器可以包括只读存储器(ROM)和/或随机存取存储器(RAM)。基本输入/输出***(BIOS)可以存储在ROM中，在所述基本输入/输出***(BIOS)中包含有助于例如在启动期间在个人计算机内的元件之间传送信息的基本例程。计算机还可以包括用于从硬盘读取和写入硬盘的硬盘驱动器、用于从磁盘读取或写入(例如，可移动)磁盘的磁盘驱动器以及用于从可移动(磁)光盘读取或写入可移动(磁)光盘的光盘驱动器，所述可移动(磁)光盘例如压缩盘或其他(磁)光学介质。硬盘驱动器、磁盘驱动器和(磁)光盘驱动器可以分别通过硬盘驱动器接口、磁盘驱动器接口和(磁)光驱接口与***总线耦接。驱动器及其相关存储介质为计算机提供机器可读指令、数据结构、程序模块和其他数据的非易失性存储。尽管此处描述的示例性环境采用硬盘、可移动磁盘和可移动(磁)光盘，但是本领域技术人员将理解其他类型的存储介质例如磁带、闪存卡、数字视频盘、Bernoulli盒、随机存取存储器(RAM)、只读存储器(ROM)等可以替代或附加于以上介绍的存储设备来使用。可以在硬盘、磁盘、(磁)光盘、ROM或RAM上存储多个程序模块，所述程序模块例如操作***、例如用于计算控制指令的方法和/或其他程序模块的一个或更多个应用程序、以及/或者例如程序数据。例如，用户可以通过诸如键盘和定点设备的输入设备将命令和信息输入至计算机中。也可以包括其他输入设备，例如麦克风、操纵杆、游戏手柄、卫星天线、扫描仪等。这些和其他输入设备通常通过耦接至***总线的串行端口接口连接至处理单元。然而，输入设备可以通过其他接口例如并行端口、游戏端口或通用串行总线(USB)连接。监测器(例如GUI)或其他类型的显示设备也可以经由接口例如视频适配器连接至***总线。除了监测器以外，计算机还可以包括其他***输出设备例如扬声器和打印机。

该计算机可以在限定了与一个或更多个远程计算机的逻辑连接的网络环境中操作。远程计算机可以是另一个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且可以包括上述与个人计算机相关的元件中的许多元件或所有元件。逻辑连接包括局域网(LAN)和广域网(WAN)、内联网和互联网。

在优选实施方式中，激光机器是激光切割机器。然而，此处提出的解决方案也可以应用于其他类型的激光机器。

决策代理优选地以软件和/或以硬件实现并且优选地在特定图形处理单元上执行，以为广泛的计算提供足够的资源。

奖励模块优选是具有到决策代理的逻辑链接以及同样到激光机器环境的逻辑链接的软件模块。

处理计划或切割计划可以作为结构化方式的电子文件被提供，以便能够自动解析和分析其中的数据。这种格式的示例可以是但不限于G-代码(或类似的)指令列表(文本文件)。

观察结果解释模块用于解释和处理从激光机器接收的传感器信号，以便生成具有至少两个子状态的状态。优选地，观察结果解释模块被实现为软件模块。此外，观察结果解释模块可以包括奖励模块，其优选地也以软件实现。

根据下面的描述和实施方式，本发明的上述特性、特征和优点以及实现它们的方式变得更清楚和更容易理解，这些描述和实施方式将在附图的上下文中更详细地描述。下面的描述并不将本发明限制在所包含的实施方式上。在不同的附图中，相同的组件或部件可以用相同的附图标记来标记。通常，附图不是按比例的。

应当理解，本发明的优选实施方式也可以是从属权利要求或以上实施方式与相应独立权利要求的任意组合。

本发明的这些方面和其他方面将根据下文描述的实施方式变得明显并且将参照下文描述的实施方式来被阐明。

附图说明

图1是根据现有技术的已知机器控制器的切割顺序的示意性表示；

图2是根据本发明的优选实施方式的由机器学习设备控制的激光机器环境的结构组成部分和架构的概述；

图3是根据本发明的优选实施方式的决策代理的示意性表示；

图4是根据本发明的优选实施方式进行处理的状态的结构图；

图5是具有最高奖励的用于生成针对加工头的控制指令的学习方法的流程图；

图6是用于训练决策代理的模型的学习过程的另一流程图；以及

图7是根据本发明的优选实施方式的用于计算控制指令的方法的流程图。

具体实施方式

本发明提议使用机器学习设备MLD和机器学习方法来克服加工顺序多标准优化复杂度的问题。

如图2所描绘的，机器学习设备MLD与激光机器L及其环境即另外的设备交互和协作，所述另外的设备例如用于移动加工头H的龙门架和外部传感器等。机器学习设备MLD接收已经在激光器L的环境中获取的传感器信号sens，并且由此将复杂计算控制指令CI提供至激光器L。激光机器L包括机器控制器MC，该机器控制器MC用于使用针对轴驱动器AD、切割头H和/或(例如用于龙门架或切割头H的移动)另外的行动者的控制信号对激光器L的切割处理进行控制。激光机器L配备有可位于激光机器L的不同位置处的传感器S。传感器S可以包括用于连续地提供处理的多层图像或多层图像矩阵(即切割环境)的红外摄像装置。

机器学习设备MLD包括观察结果解释模块OIM，该观察结果解释模块OIM的作用是对从加工环境L接收的带有观察结果数据的传感器信号sens进行数学预处理和建模。观察结果解释模块OIM包括用户可配置的奖励函数模块RF，该用户可配置的奖励函数模块RF包括至少一个优化标准OC或不同优化标准OC的组合。优化标准OC例如可以是安全性、加工时间、质量。人类经验反馈也可以用作例如从有经验的机器操作者学习到的优化标准OC，所述有经验的机器操作者的经验被形式化并被存储在存储器MEM中。决策代理DA是机器学习数学模型。决策代理DA可以包括神经网络、深度神经网络、卷积神经网络和/或循环神经网络，该决策代理DA被训练成针对未来的加工步骤预测未来奖励和选择最佳动作a。

在Q学习方面，***的状态s为以下或表示以下：

1.对已处理的部件和仍需处理的部件进行区分的加工计划P的当前布局的数字形式，以及

2.例如借助于IR摄像装置观察到的热分布图。

更一般地，***的状态s通常表示为可变的结构化数据(或者至少不适合于输入到神经网络)。由切割机器处理的切割计划P是代表包括部件中的孔的部件的几何轮廓的顺序。每个切割计划的部件的数目既不固定也不受限(受材料板的物理尺寸限制)。可以在机器学习设备MLD的输入接口JN上接收切割计划P。

状态s的预处理的第一步骤是将切割计划P及其当前加工处理编码成适合于神经网络输入的固定大小矩阵。在优选实施方式中，考虑使固定大小N×M像素的多层图像作为多层图像或多层图像矩阵中的第一层，所述固定大小N×M像素的多层图像具有一种颜色的应当被处理的部件和另一颜色的处理部件。在其中热传播和材料过热很重要的应用中，提供了为了根据自部件被切割起经历的时间来更新切割部件的颜色(在已经达到一些时间限制之后饱和至固定值)的算法。多层图像或多层图像矩阵中的第二层表示切割计划的热力图(像素值与测量温度或模拟温度相对应)。使大的且大小可变的图像作为神经网络的输入，这导致了网络训练的一些实际困难。为了克服所述困难，可以在做出决策的神经网络之前***变分自动编码器。自动编码器的作用是将输入数据空间缩小成更小的大小固定的宽度向量，同时隐式保留处理的状态信息。

作为将状态s建模为多层图像或多层图像矩阵的可能替选方式，可以应用结构数据嵌入的神经网络或图形神经网络[参见例如Scarselli等人.2009,The Graph NeuralNetwork Model]。

根据本发明的机器控制器MC是用于对激光机器L的加工头H(例如激光机器的切割头)和坐标轴驱动器AD的加工处理进行控制的智能机器控制器。机器控制器MC可以与机器学习设备MLD配对工作，该机器学习设备MLD可以包括用于大量的数学计算的中央处理单元CPU和图形处理单元GPU、存储器、包含训练模型的储存器。在优选实施方式中，提议使用强化学习或深度Q学习作为用于以上提及的机器学习设备MLD的机器学习方法。有关Q学习的更多详细信息，请参阅通过引用并入本文中的US20150100530。经典的Q学习包括创建作为状态-动作[s,a]组合(状态是处理的当前状态，以及动作是针对当前状态的可能的接下来的步骤)的质量的Q表。决策代理DA根据Q表动作以动态地对每一步骤做出决策。对于所采取的每一步骤，决策代理DA都会接收来自激光机器L的环境的奖励。决策代理DA的目标是使所有步骤的总奖励最大化。为此，使用观察到的激光器L的传感器信号以及分配的或相关的奖励(以及接下来的步骤的最大预测奖励)不断地更新Q表。在深度Q学习的情况下，函数Q由深度(卷积)神经网络CNN表示。优选地，使用经验回放技术来克服由于相关观察结果和神经网络的非线性度而导致的解法不稳定性问题。

根据对接下来要处理的部件的选择形成动作a的空间，所述空间包括处理的方向(在轮廓切割的情况下)和起点(在可能有多个起点的情况下)。在某些情况下，对于大的动作空间或连续的动作空间，行动者评论家方法(actor critic approach)是更适合的。Q学习与行动者评论家之间的主要区别在于：算法利用2AA—行动者(动作作为状态的函数)和评论家(值作为状态的函数)对处理进行建模而不是使用人工神经网络(简称：ANN)对Q函数(将状态和动作轴映射成质量值)进行建模。在每一步骤下，行动者都预测要采取的动作，而评论家则预测该动作会有多好。两者是并行训练的。行动者依赖于评论家。

在顺序切割的情况下，评论家代理可以在给定当前情形(当前状态)和连续空间(切割计划上的接下来的部件的坐标)中编码的动作的情况下评估理论上的最佳未来结果。然后，优化处理需要询问行动者能导致更好结果的接下来要采取的动作。

由传感器信号sens传递的经验数据(神经网络系数和其他配置数据)存储在存储设备MEM上，并且可以经由网络、共享驱动器、云服务在多于一个加工环境之间共享或由机器技术人员手动分发。

图3表示了具有向内消息和向外消息的决策代理DA的结构表示。基于接收到的传感器信号计算激光切割机器L的环境的状态s。所述状态表示了作为第一部分的已被切割的轮廓，和作为第二部分的切割计划在目前切割状态下的热力图。切割计划P也可以被提供至决策代理DA。奖励函数模块RF提供施加至观察结果数据(传感器信号sens)的奖励函数。基于该输入数据，决策代理DA为激光机器L(由机器控制器MC指示)提供接下来要采取的动作a。

图4示出了要由决策代理DA处理的状态s的示意性表示。所述状态包括两个子状态S1、S2。第一子状态S1是指具有已处理部件和仍要处理的部件的切割作业的进度。第二子状态S2是指工件的表示在切割位置处将热能局部注入至工件中的热力图，第二子状态S2揭示了工件和/或切割部分中可能的区域过热并用作关于质量的测量。

如图5可以看出，学习处理包括：使用奖励预测决策代理DA基于其当前经验生成在控制指令CI中表示的用于加工头的加工顺序，执行加工同时记录观察结果(即传感器信号sens与总加工时间、材料或工件热力图以及/或者可能的碰撞等有关)。然后在步骤14中解释观察结果，以便针对优化应当关注的每一现象生成成本函数或奖励函数。

我们建议从一组不同的奖励函数中针对不同的优化目标进行选择。切割时间优化奖励函数将使用带有负号的总行进距离。热优化奖励函数将使用带有负号的最大达到的局部温度。作为替选，也可以沿带有负号的所有切割轮廓对温度(或温度的任何幂函数)进行积分测量。对于碰撞优化奖励函数，在没有碰撞且在负常数乘以最终碰撞的次数的情况下，函数的值为0。

在阶段15期间，使用用户偏好的优先级的权重，对作为线性组合(但不限于)的全局奖励函数进行计算。由机器的操作者根据当前需求(安全与速度、速度与安全、安全+质量等)设定优先级。线性组合系数是经验发现的。例如，全局奖励函数可以为：

对于平衡优化，“距离_奖励*1.0+热_奖励*1.0+碰撞_奖励*1.0)”，以及

对于速度优化，“距离_奖励*10.0+热_奖励*1.0+碰撞_奖励*1.0)”等。

在对局部奖励函数和全局奖励函数进行评估之后，做出决策的代理的经验数据(即所使用的(多个)神经网络的权重)在阶段16期间被更新。值得一提的是，学习过程的执行阶段和观察阶段可以在真实机器(例如，配备有相应的传感器的激光切割机器，所述传感器例如用于热成像的IR光学传感器、用于可能的碰撞检测的3D场景重建传感器、驱动器电流和加速度传感器且不限于此)上进行，以及可以在虚拟环境例如机械机器模拟软件中进行。

在虚拟环境的情况下，使用相应的模拟技术(针对热分布图的FE方法，针对倾斜部件检测的机械模拟等)计算观察结果数据。虚拟模拟学习是优选的一个，因为学习应当优选地在非常大量的通常成千上万的不同加工计划(虚拟地生成和模拟的)上完成。这会影响最佳加工顺序预测的整体表现。

图6表示了用于训练模型或卷积神经网络CNN的训练过程。在学习和训练开始之后，生成嵌套。请在此上下文中定义术语“嵌套”！

可以通过使用以下生成嵌套：标准嵌套参数以及使用生产采样统计从生产部件数据库中随机采样的部件列表，所述生产采样统计包括例如唯一部件的平均数目、平均尺寸分布、材料类型等。然后，过程可以进行至执行与图5中的步骤13至16有关的一次学习会话。在该步骤之后，过程可以进行至用于将获得的训练经验数据(例如，神经网络系数)分发至与机器学习设备MLD协作的所有机器控制器MC的步骤。

图7表示了用于生成用于通过机器控制器MC控制激光切割头H的控制指令CI的另一流程图。在方法开始之后，在步骤S71中读入切割计划P。这可以经由输入接口JN来完成。切割计划P可以作为结构化格式的文件被接收。在步骤S72中，从激光机器L的环境接收传感器信号。在步骤S73中，考虑所有接收到的传感器信号sens来确定或计算状态。在步骤S74中，由决策代理DA计算接下来要采取的动作a。在步骤S75中，可以基于计算出的动作a提供控制指令CI。在优选实施方式中，通过使用传递函数将动作a转换成控制指令CI。在简单的实施方式中，传递函数是恒等运算，且动作a本身与要转发至机器控制器MC的控制指令CI相同。在其他实施方式中，可以应用其他更复杂的传递函数，例如重新格式化、适于相应激光机器的具体情况和/或安装在相应激光机器上的软件版本、施加安全函数等。在步骤S76中，在已经将计算出的控制指令CI提供至机器控制器MC之后，可以指示该机器控制器MC直接执行接收到的指令，而无需进一步手动输入或验证。在激光机器操作过程期间，连续地观察传感器信号sens被并将传感器信号sens被提供至决策代理DA(图7中的循环至步骤S72)。

根据对附图、公开内容和所附权利要求的研究，本领域技术人员在实践要求保护的发明时可以理解和影响对所公开的实施方式的其他变型。在权利要求中，词语“包括”不排除其他元件或步骤，以及不定冠词“一”或“一个”不排除复数。

单个单元或设备即决策代理DA或机器学习设备MLD可以实现权利要求中记载的若干个项的功能。在相互不同的从属权利要求中记载了某些措施的纯粹的事实并不指示这些措施的组合不能被有利地使用。

用于根据上述方法生成控制指令CI的机器学习设备MLD可以实现为计算机程序的程序代码装置和/或实现为专用硬件。

计算机程序可以存储/分发在与其他硬件一起或作为其他硬件的一部分提供的合适的介质例如光学存储介质或固态介质上，但是也可以以其他形式例如经由互联网或者其他有线或无线电信***分发。

权利要求中的任何附图标记不应被解释为限制范围。

在没有明确描述的情况下，关于附图描述的各个实施方式或它们的各个方面和特征可以在不限制或扩大所描述的发明的范围的情况下组合在一起或者彼此交换，只要这种组合或交换是有意义的并且在本发明的意义上。在适用的情况下，相对于本发明的特定实施方式或相对于特定附图描述的优势也是本发明的其他实施方式的优势。

Claims

1.一种用于对用于控制激光机器的切割头以执行编码的切割计划的控制指令进行计算的计算机实现的方法，所述编码的切割计划用于切割工件中的一组轮廓以便将工作部件从所述工件中分离，所述方法包括以下方法步骤：

读取所述编码的切割计划，所述编码的切割计划是代表在所述工作部件中包括孔的工作部件的几何轮廓的顺序；

借助于一组传感器信号连续地确定状态，其中，所述状态包括所述激光机器的状态、所切割出的工作部件的状态和要切割的所述工件的状态；

提供计算机实现的决策代理，所述决策代理使用所述编码的切割计划和所确定的状态、通过访问训练模型来动态地对所述切割头接下来要采取的动作进行计算，并且基于计算出的动作来提供用于执行所述切割计划的控制指令，

其中，所述模型接收多层图像矩阵形式的所确定的状态和所述编码的切割计划作为输入，并且提供要转发至所述激光机器上的机器控制器以供接下来执行的动作作为输出。

2.根据权利要求1所述的方法，其中，在执行所述动作之后，所述动作将基于接收到的传感器信号接收奖励，以及其中，所述决策代理包括用于执行奖励函数以便使针对所有动作的全局奖励最大化的奖励模块。

3.根据权利要求1所述的方法，其中，在通过所述激光机器基于计算出的动作执行控制指令之后和/或期间，来自所述一组传感器的经验数据被聚合并被反馈至所述模型，以便连续地改进所述模型。

4.根据权利要求1所述的方法，其中，以多层图像矩阵形式表示所确定的状态，所确定的状态至少包括以被切割的工件的层图像形式的第一子状态和以所述工件的层图像形式的第二子状态，在所述第一子状态中已切割的工作部件与仍未切割的工作部件是不同的，在所述第二子状态中表示了按照所述切割计划被切割的工件的热力图。

5.根据权利要求2所述的方法，其中，所述奖励函数选自包括以下的组：切割时间奖励函数、热优化奖励函数、温度积分测量奖励函数和碰撞避免奖励函数。

6.根据权利要求5所述的方法，其中，所述奖励函数是使用用户限定的优先级作为权重的所有奖励函数的线性组合。

7.根据权利要求1所述的方法，其中，针对特定优化目标而确定特定奖励函数。

8.根据权利要求1所述的方法，其中，作为自学习代理的所述决策代理能够通过Q表建模和/或按照所述Q表行动，能够借助于Q函数生成所述Q表，其中，所述Q表使状态-动作组合的质量形式化以用于针对所述激光机器的每一步动态地评估和计算接下来的动作。

9.根据权利要求1所述的方法，其中，所述决策代理实现Q函数，所述Q函数能够由深度神经网络表示。

10.根据权利要求9所述的方法，其中，所述深度神经网络是深度卷积神经网络。

11.根据权利要求1所述的方法，其中，所述决策代理被实现为至少一个神经网络并且使用经验回放技术用于训练。

12.一种适于执行根据权利要求1的方法的机器学习设备，所述机器学习设备包括：

输入接口，所述输入接口被配置成读取编码的切割计划，所述编码的切割计划是代表在所述工作部件中包括孔的工作部件的几何轮廓的顺序；

观察结果解释模块，所述观察结果解释模块被配置成借助于一组传感器连续地确定与由所述激光机器进行的所述工件的切割相关的状态；

计算机实现的决策代理，所述决策代理被配置成使用所述编码的切割计划和所确定的状态、通过访问所述训练模型来动态地对所述切割头接下来要采取的动作进行计算，并且基于计算出的动作来提供用于执行所述切割计划的控制指令，

其中，所述模型被配置成接收多层图像形式、优选地多层图像矩阵形式的所确定的状态和所述编码的切割计划作为输入，并且提供要转发至所述激光机器上的机器控制器以供接下来执行的所述动作作为输出。

13.一种存储包括程序元素的计算机程序的计算机可读存储介质，所述计算机程序在所述程序元素被加载至计算机的非暂态存储器中时使得所述计算机执行根据权利要求1所述的用于对用于控制激光机器的加工头的控制指令进行计算的方法的步骤，其中，所述计算机包括一组传感器，所述一组传感器被配置成借助于一组传感器信号来连续地确定所述激光机器的状态。