CN117709647A

CN117709647A - 一种基于数字孪生的生态矿山动态决策方法

Info

Publication number: CN117709647A
Application number: CN202311720159.6A
Authority: CN
Inventors: 黎昞; 王皓明; 徐韬
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-15

Abstract

本发明公开了一种基于数字孪生的生态矿山动态决策方法，包括：基于生态矿山车间的物理空间，建立生态矿山车间数字孪生模型；对生态矿山车间数字孪生模型进行分析，得到车间生产数据信息的特点；基于车间生产数据信息的特点，建立车间数据感知***；利用车间数据感知***对生态矿山车间的物理空间进行感知与状态识别，得到车间数据；提取车间数据中的实时状态信息；根据实时状态信息，利用深度强化学习算法动态确定车间调度方案；利用生态矿山车间数字孪生模型对车间调度方案进行仿真验证，若通过验证，则依据车间调度方案对生态矿山车间的物理空间下发决策指令，以实现车间动态决策。本发明能够解决现有生态车间制造车间智能化管理不足的问题。

Description

一种基于数字孪生的生态矿山动态决策方法

技术领域

本发明涉及生态矿山管理技术领域，具体涉及一种基于数字孪生的生态矿山动态决策方法。

背景技术

随着新一代信息通信技术(IoT、云计算、大数据、AI等)与传统矿山产业生产过程的深度融合，使得传统矿山产业制造车间生产模式正在向智能制造生态矿山车间生产模式转化，生态矿山车间生产过程中的各项问题包括监控、调度、维护等也越来越受到企业的重视。智能生态矿山车间监控***存在交互感差、自适应能力低、决策不及时等问题，无法对生态矿山车间生产过程中异常扰动事件进行实时调整，而解决这些问题的瓶颈在于实现物理空间与信息空间的深度融合。近年来，数字孪生(Digital Twin,DT)作为实现物理空间与信息空间深度融合的重要技术，为实现生态车间制造车间的智能化提供了新的思路。

发明内容

本发明的目的在于提供一种基于数字孪生的生态矿山动态决策方法，以解决现有生态车间制造车间智能化管理不足的问题。

本发明解决上述技术问题的技术方案如下：

本发明提供一种基于数字孪生的生态矿山动态决策方法，包括：

基于生态矿山车间的物理空间，建立生态矿山车间数字孪生模型；

对所述生态矿山车间数字孪生模型进行分析，得到车间生产数据信息的特点；

基于车间生产数据信息的特点，建立车间数据感知***；

利用车间数据感知***对生态矿山车间的物理空间进行感知与状态识别，得到车间数据；

提取所述车间数据中的实时状态信息；

根据所述实时状态信息，利用深度强化学习算法动态确定车间调度方案；

利用所述生态矿山车间数字孪生模型对所述车间调度方案进行仿真验证，若通过验证，则依据所述车间调度方案对所述生态矿山车间的物理空间下发决策指令，以实现车间动态决策。

可选择地，所述生态矿山车间数字孪生模型包括元素维度模型、行为维度模型和规则维度模型；

所述元素维度模型用于描述车间作业过程***中的基本生产要素组成部分，包括物理车间中的部件、设备、生产线和产品；

所述行为维度模型用于描述每个生态矿山车间作业过程发生的过程行为，并且，所述行为维度模型包括行为元素、行为内容、行为序列、响应参数和响应时间；

所述规则维度模型用于定义虚拟***中的约束规则、数据分析与决策，约束规则包括每个工艺作业过程的时序要求和约束条件；数据分析包括利用智能制造生态矿山车间生产过程中数据变化预测未来生产情况；决策用于描述的是结合优化智能算法对车间加工状态的预测和决策。

可选择地，所述车间生产数据信息的特点包括：多源异构、实时、关联和突发。

可选择地，所述车间数据感知***包括数据采集子***、数据传输子***和数据服务子***，所述数据采集子***用于对生态矿山车间的物理空间中的工件加工状态进行实时追踪感知，得到车间动态实时数据；

所述数据传输子***用于所述车间动态实时数据依次进行数据提取、解析和封装，得到协议包；并将所述协议包传输至所述数据服务子***；

所述数据服务子***用于根据所述协议包进行数据建模，并将所述协议包转化为生态矿山车间状态事件的表征。

可选择地，所述生态矿山车间状态事件的表征包括：

标签读取事件、RFID简单事件和RFID复杂事件；

所述标签读取事件表示为：

E_t＝E(e，r，t)

式中，e是电子标签编号，r是读写器ID，t是事件发生时间点；

所述RFID简单事件表示为：

E_s＝{OE_t，AE_t，DE_t，SE_t，RE_t}

式中：

OE_t表示标签在某个时刻的空间状态；

AE_t表示到达事件，即标签进入读写器的读取范围内；

DE_t表示离开事件，即表示某个时刻标签离开读与器的读取范围；

SE_t表示停留事件，即表示标签停留在读写器读取范围内的过程；

RE_t表示重现事件，即指RFID标签在某读写器读写范围消失到重新出现的过程；

所述RFID复杂事件表示为：

E_c＝E(e,r,E_s,ts,te)

式中：

e表示各种相关的子事件共同构成复杂事件集合；

ts表示在复杂事件中开始时刻；

te表示在复杂事件中结束时刻。

可选择地，根据所述实时状态信息，利用深度强化学习算法动态确定车间调度方案包括：

将所述车间调度方案转化为马尔可夫决策过程，其中，所述马尔可夫决策过程中的状态矩阵描述了目标机器采取的任何一个动作的车间场景信息，所述状态矩阵中的元素为目标机器选取工件进行加工的动作；

根据所述实时状态信息，确定车间调度方案的状态特征；

根据所述状态特征生成车间调度规则；

将车间调度规则作为深度强化学习算法的动作选取空间；

以制造车间生产过程动态决策的效果奖励和以最小化最大加工时间的固定奖励作为所述深度强化学习算法的奖励函数；

当出现空闲机器时，利用深度强化学习算法选择车间调度规则并执行，执行后计算相应的奖励并进入下一个状态，以此循环继续进行，直到处理完所有任务为止。

可选择地，所述制造车间生产过程动态决策的效果奖励为：

所述最大加工时间的固定奖励r₂为：

其中，V表示当前所有处理事件时间的方差，t_e表示当前时刻的处理事件，表示当前处理事件的平均时间，e表示自然常数，C₁、C₂和C₃表示不同的常数，Cmax表示生产周期。

可选择地，所述深度强化学习算法通过使用Bellman方程连续更新动作值函数，以动态确定车间调度方案。

可选择地，所述Bellman方程为：

其中，Q_i+1表示迭代后的Bellman方程，s表示行为值，a表示动作值，E表示公式迭代所包含的式子，r_t表示时间步t的奖励，γ表示折扣系数，a_t表示第t步的动作值，Q_t表示迭代前的Bellman方程，s_t+1表示第t+1步的行为值，a_t+1表示第t+步的动作值，s_t表示第t步的行为值。

本发明具有以下有益效果：

本发明为解决目前车间监控可视化程度低的问题，建立车间数字孪生模型以实现对物理生态矿山车间的三维可视化映射；为解决车间生产过程异常状态感知和虚实车间交互难的问题，基于物联网技术感知车间设备、工件加工过程数据，建立了虚实车间信息交互机制，实现了车间监控***对车间生产过程状态的有效管控；针对当前生态矿山车间监控***自适应能力不足等问题，结合数字孪生技术，提出了基于数字孪生的生态矿山车间加工路线动态决策方法，研究了生态矿山车间动态决策问题并提出了基于DRL的生态矿山车间加工路线决策算法，提高了生态矿山车间监控***的智能化水平。

附图说明

图1为本发明基于数字孪生的生态矿山动态决策方法的流程图；

图2为生态矿山生产车间模型树；

图3为生态矿山生产车间叶节点信息模型图；

图4为生态矿山生产车间模型行为驱动流程图；

图5为生态矿山生产车间智能机器人结构简图；

图6为双道MAS模型图；

图7为容灾分布式架构图；

图8为生态矿山生产车间数据感知***模型图；

图9为生态矿山生产车间感知场景示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供一种基于数字孪生的生态矿山动态决策方法，参考图1所示，包括：

S1：基于生态矿山车间的物理空间，建立生态矿山车间数字孪生模型；

生态矿山车间数字孪生模型是对物理生态矿山车间的忠实映射，建立车间数字孪生模型理论上应具备物理车间的全部属性、行为以及运行规则，但是实际生产过程不可能获取物理车间全部信息。作为一种实施方式，本发明为实现智能制造车间的监控，对其中需要的物理生态矿山车间属性进行描述和建模。

元素维度模型：生态矿山车间数字孪生建模的对象是智能制造物理车间的所有生产过程及要素所处状态。其中元素维度描述车间作业过程***中的基本生产要素组成部分，如物理车间中的部件、设备、生产线、产品等。每个元素建模内容都包含多种元素，如常规特性、物理特性和几何特性。其中组件建模和IoT(物联网)单元模型是智能车间设备、生产线等模型的构建基础和交互基础。

生态矿山生产车间的组成部分主要包括异种设备、人员、材料等。对于生态矿山车间的生产要素，不仅要建立多维度、多尺度的DT模型，还要对DT进行综合管理。本发明完成了基于树状结构的车间DT模型管理，通过建立多尺度车间资源模型实现车间资源模型的分层结构，依据层次模型的融合、重构最终建立与物理车间精准等比的车间三维可视化场景。如图2所示，将智能制造车间生产要素划分为五个部分：生产设备、相关人员、IoT、加工产品、物料仓储、生产环境等，并将每个部分进行细化为一类资源。

元素维度模型包含资源的几何信息和其他属性信息，对各个生产要素模型建立特定的ID编号以及与真实物理设备交互的信息信号接口。如图3通过标准化模块管理各节点的属性信息。

行为维度模型：行为建模用于描述每个生态矿山车间作业过程发生的过程行为。行为模型除包含行为本身的各种元素外，还包括行为内容、行为序列、响应参数、响应时间等。利用行为维度模型能够将智能制造物理生态矿山车间生产过程转化成虚拟车间的动态运行，利用实时感知的数据实现智能制造物理生态矿山车间和虚拟生态矿山车间同步运行，完成生态矿山车间数字孪生(Digital Twin,DT)模型中生产要素模型关联到全作业流程，建立层次化的映射体系，从而实现车间全流程全要素运行状态的三维可视化实时监控。

在建立生态矿山车间元素维度模型的基础上，模型的行为是基于数字孪生的智能制造车间监控***实时映射物理车间作业运行状态的基础。模型行为的驱动来自物理车间实时采集的数据信息，这些实时数据信息通过RFID、传感器等数据感知技术进行获取。然而实时数据仅仅是模型行为的驱动信息，模型行为还包括从动元素、动作参数、行为追踪、规则约束、时间约束等，如图4所示的模型行为驱动原理图，通过实时数据指令下达初始化模型行为和执行任务信息，由模型中父子节点的从属关系和约束条件驱动从动元素。与此同时，模型不是单独的个体，需要实时与车间内其他设备模型进行交互，因此车间的运行规则也约束着模型行为动作。

以6轴机器人为例，机器人各关节及连杆参数如表1所示，图5为机器人的结构简图。其中a是第i连杆的扭转角，θ_i是i与i+1之间的夹角，d_i是i与i+1连杆之间的距离，a_i是连杆的长度。

表1生态矿山机器人连杆参数表

根据的变换通式：

和机器人变换矩阵：

机器人的正运动学方程为：

分别表示第1步到第6步的变换矩阵。c表示常数，s表示扭转角，n表示夹角，o表示连杆的长度，a表示第i连杆的扭转角，p表示连杆之间的距离。

规则维度模型：规则建模用于定义虚拟***中的约束规则、数据分析与决策。约束规则包括每个工艺作业过程的时序要求和约束条件。数据分析利用智能制造生态矿山车间生产过程中数据变化预测未来生产情况；决策描述的是结合优化智能算法对车间加工状态的预测和决策，提高车间加工过程的自适应能力，进而提高作业生态矿山车间整体效率。

规则维度建模是实现描述物理生态矿山生产车间作业的重要一环，需要对物理矿山生产车间生产***进行建模，以实现对物理矿山生产车间运行过程的仿真和监控。

智能制造生态矿山生产车间生产***是典型的分布式生产***，每个设备都有独立的功能，适合采用多智能体***(Multi-Agent System,MAS)理论描述生产***作业规则，而且通过MAS可以实现嵌入生产线仿真模型进行性能模拟。通过建立矿山生产车间实时感知数据与车间事件驱动的生产***状态的映射关系，实现车间数据信息的增值和迭代。实时信息驱动的车间DT***对矿山生产车间规则的要求更高。因此，使用如图6所示的分布式MAS建立生产***模型，以提高模型的推理和决策能力。

在分布式结构中，各个Agent都是独立的，Agent之间依托实时信息交互实现数据增值，实现复杂车间生产***的构建，但在矿山生产车间中针对不同的加工需求对应的MAS的结构是一致的，因此以两道工序的智能制造车间生产***为例，说明矿山生产车间作业的运行规则。两道工序的MAS模型如图7所示。

MAS基本上是一个多层分布式***。由于MAS的复杂性和多样性，必须合理使用相应的组织和管理方法。根据Agent的角色，采用不同的管理方法。这种管理方式就是MAS的管理方式和最有效的手段。在图7所示的两道工序MAS的结构中，主要定义的Agent有：全局Agent、***管理Agent、设备Agent(物流Agent和加工设备Agent)。

(1)全局Agent

全局Agent主要管理整个***，拥有整个***的最高权限。它主要与***管理代理交互，但也提供其他Agent单元所需的操作约束和算法。全局Agent数据库用于存储过去的车间操作数据和迭代优化参数。算法库主要提供车间运行所需的算法，如插补算法、加减速算法以及路径规划调度算法等。

(2)***管理Agent

***管理Agent主要负责协调和调度现场Agent，主要结构包含任务信息和优化处理模块。任务信息模块是对矿山生产车间生产作业任务的分工；优化处理模块根据车间运行状态实现任务信息的调正和重调度，通过设定不同的交互方式与各个Agent通信协调，实现车间作业的共同目标。

(3)设备Agent

设备Agent主要是对设备的任务和运行状态行为进行监测，接收***管理Agent分配的任务，并将设备在运行过程中的多源异构的数据进行收集，通过设备状态模块的分析输出设备目前的状态给全局Agent作为车间作业的评估和预测指标。

通过上述建模方法，可以将涵盖整个矿山生产车间流程的操作规则转化为复杂的车间MAS模型。实体车间的实时识别数据可以转化为相应的车间管理事件。将事件引入MAS模型可实现车间操作过程中的实时信息集成。建立了物理车间到MAS模型的动态映射，实现了矿山生产车间作业全作业流程作业的同步运行建模。

以上三个维度对实体生态矿山车间进行了不同维度的描述，满足了基于数字孪生的智能制造生态矿山车间监控***对生态矿山车间DT模型的要求，为监控***的搭建奠定了模型基础。

S2：对所述生态矿山车间数字孪生模型进行分析，得到车间生产数据信息的特点；

基于上述内容，可以得出车间的生产数据信息具有以下特点：

1)多源异构：智能制造车间的加工设备来源广、种类繁多、设备的接口和通信协议各有不同，没有标准的数据采集格式，使得采集的数据难以集中管理。

2)实时：车间中的实时主要包含两个方面：首先是制造要素，即为设备(如数控机床、机器人、立体仓库)运行状态信息的实时感知；另一个是产品加工状态，即为工件加工状态信息实时感知，工件加工涉及多个工序，加工路线复杂，需要实时感知工件所处的位置和状态。

3)关联：车间制造过程的进展需要使用多个设备的运行参数。例如，为了实时获取工件的加工状态信息，RFID***提供的实时工序加工信息和位置信息、物流设备搬运物料信息和加工设备加工参数信息，通过将这些数据进行融合分析提取工件加工状态信息。

4)突发：因实际工况因素复杂，经常会发生一些异常扰动事件，影响生产计划和效率，需要对制造车间的制造过程中发生动态扰动事件进行实时动态监测和控制。

S3：基于车间生产数据信息的特点，建立车间数据感知***；

车间数据感知***参考图8所示，包括数据采集子***、数据传输子***和数据服务子***。

物联网技术与制造业的实际生产过程相结合，改变传统的车间管理模式，是智能制造车间的基础。本发明通过上述对车间数据的分析，基于物联网的关键技术(无极射频识别技术、无线传感器网络、数控机床等设备的组网等)进行车间数据的感知与状态识别，为车间监控***提供决策依据。

在车间数据中静态数据随时间变化小，因此使用人工录入的方式输入到车间生产管理***中，存储到相应的数据库中。动态数据是实际车间监控***实时监控的数据，在制造车间中常用的感知装置和技术有无线射频识别技术(Radio FrequencyIdentification,RFID)、传感器、工控机和PLC等，这些装置结合车间物联网实现对车间动态实时数据的感知。结合实际生产车间现状。其中数据采集层通过RFID技术对工件加工状态进行实时追踪感知，通过数控***、PLC以及传感器***实现设备运行状态的感知，得到车间动态实时数据；数据传输子***用于车间动态实时数据依次进行数据提取、解析和封装，得到协议包；并将协议包传输至数据服务子***；数据服务子***用于根据协议包进行数据建模，并将协议包转化为生态矿山车间状态事件的表征。

可选择地，生态矿山车间状态事件的表征包括：

标签读取事件、RFID简单事件和RFID复杂事件；标签读取事件表示为：

E_t＝E(e，r，t)

所述RFID简单事件表示为：

E_s＝{OE_t，AE_t，DE_t，SE_t，RE_t}

式中：

OE_t表示标签在某个时刻的空间状态；

AE_t表示到达事件，即标签进入读写器的读取范围内；

所述RFID复杂事件表示为：

E_c＝E(e,r,E_s,ts,te)

式中：

e表示各种相关的子事件共同构成复杂事件集合；

ts表示在复杂事件中开始时刻；

te表示在复杂事件中结束时刻。

本发明将监控***服务于某高校智能制造车间，网络(WIFI、LAN)覆盖整个车间，基于物联网技术理念构建车间制造车间工件加工状态数据感知环境。如图9所示，该制造车间由监控***、原料仓库、物流设备、缓存库、数控机床、产品仓库等组成，在每个工位配置一台RFID读写器，将抗金属的陶瓷电子标签附着在工件非加工表面，完成产品的全生产过程的数据追踪。

数据传输模型可以实现虚实生态矿山生产车间的双向信息传输，传输流程介绍如下：

(1)实至虚的数据流物理车间到生态矿山生产车间DT场景的数据流是物理车间生产资源实时运行状态数据驱动的，用来实现车间监控***中的生态矿山生产车间DT模型实时同步显示、仿真分析、决策等。首先，通过OPC UA、TCP/IP、Modbus TCP等通讯协议和RFID等物联设备完成对车间生产要素运行状态的数据感知，通过实时数据驱动生产要素DT模型，并将最新信息写入到数据库中。

(2)虚至实的数据流

车间DT场景到物理生态矿山生产车间的数据流是由虚拟仿真生产指令数据驱动的，用来实现生态矿山生产车间监控***对物理车间的精准管控。首先，生态矿山生产车间生产要素DT模型通过实时仿真分析，将仿真数据写入数据库，并通过数据库服务更新仿真算法参数优化仿真，通过DigitalTwin API将仿真生产指令下达到物理生态矿山生产车间的加工设备，设备将生产指令数据解析成设备控制指令然后执行。

利用CPE技术对该制造车间进行事件描述，如表2描述的是该制造车间所涉及到的工件在各个工位发生的简单事件，AE_trranf表示工件(ID为e)在t时刻在工位N_tranf发生达到事件；DE_trranf表示工件(ID为e)在t时刻在工位N_tranf发生离开事件，其他工位发生的事件以此类推。

表2生态矿山简单事件列表

通过对上述简单事件进行过滤、筛选和组合，生成制造车间中工件在工位上的复杂事件，如表3描述的是该制造车间所涉及的复杂事件内容，其中XE_crm表示新工件ID在时间段[ts,te]出现在原料仓库中，SE_Crranf表示工件(ID为e)在时间段[ts,te]内在工位N_trung内的停留事件，其他工位发生的事件以此类推。

表3生态矿山复杂事件列表

工作状态矩阵通过实时监控工作处理异常事件获取，通过定义矩阵中对应位置的值来判断工作异常事件的发生，获取车间工作异常事件信息。状态矩阵下式给出。其中i为工件编号，j为车间加工设备的序列号。若e_ij＝0则表示工件在该工位加工情况正常；e_ij＝1则表示发生异常事件。

S4：利用车间数据感知***对生态矿山车间的物理空间进行感知与状态识别，得到车间数据；

S5：提取所述车间数据中的实时状态信息；

S6：根据所述实时状态信息，利用深度强化学习算法动态确定车间调度方案；

根据所述实时状态信息，确定车间调度方案的状态特征；

根据所述状态特征生成车间调度规则；

将车间调度规则作为深度强化学习算法的动作选取空间；

针对车间生产环境的不确定性(如工件加工时间异常、设备故障等)导致车间生产效率严重不足，而传统的启发式调度算法不能及时响应车间生产环境下的动态变化，难以保证所执行的调度方案最优的问题。本文使用深度强化学习(Deep reinforcementlearning，DRL)解决未知环境中的调度决策问题。而将深度强化学习应用于调度决策领域的关键问题和难点是将调度决策问题转化为马尔可夫决策过程(Markov DecisionProcess,MDP)。在马尔可夫决策过程中，状态矩阵描述了机器Agent采取的任何一个动作的车间场景信息，在这种场景下，机器Agent选取工件进行加工即为一个动作，

可获得相应的奖励。DRL是从机器Agent一系列动作决策中学习，采取获得未来奖励最大的累计动作。针对车间调度问题的状态矩阵数据十分巨大的问题，本发明采用不需要对车间环境进行建模，使用仅评估状态矩阵值的无模型强化学习方法。

(1)调度问题转化为MDP

1)状态特征

使用MDP表达车间动态调度问题的关键在于状态特征表达、决策动作选取以及奖惩函数的定义，定义状态特征矩阵是保证调度决策依据可靠性的基础。首先，对车间制造场景进行全面表达，旨在捕捉各种工况下的场景变化。本发明将车间制造场景状态矩阵设置为三个矩阵的形式，包括生产任务分配矩阵、工件加工状态矩阵和设备运行状态矩阵，通过状态矩阵变化可以快速反映制造车间环境变化。

2)动作选取

动作选取指的是机器Agent在当前状态下选取缓冲区中的任一工序进行加工的行为。车间调度规则是在每个机器Agent决策点根据静态环境下预定义的方案为工序加工优先级，充分体现了DRL根据经验学习的特点。因此，本发明选用车间调度规则作为深度强化学习地动作选取空间，选取表4所示地调度规则作为本文求解最小化最大完成时间车间调度问题的动作空间。

表4生态矿山动作集表

3)奖励函数

奖励函数是MDP的重要组成部分，是每个动作的短期回报。由于优化目标是最小化最大加工时间，智能体能够在周期更短的调度方案中获得更大回报，本发明选定以制造车间生产过程动态决策的效果奖励和以最小化最大加工时间的固定奖励作为奖励函数。制造车间生产过程动态决策的效果奖励为：

所述最大加工时间的固定奖励r₂为：

其中，V表示当前所有处理事件时间的方差，t_e表示当前时刻的处理事件，表示当前处理事件的平均时间，e表示常数，C₁、C₂和C₃表示不同的常数，Cmax表示生产周期。

基本的强化学习方法，例如Q学习和SARSA算法，通常的表示方法是使用Q值表格，动作值函数Q*(s,a)对应于a*。但是制造生态矿山生产车间环境负责，生态矿山生产车间过程是动态变化的，很难使用Q值表格记录车间运行状态。因此，本发明采用DRL方法解决制造车间的动态调度决策问题。

从物理车间和虚拟生态矿山生产车间获得的实时信息，DRL制定了相应的调度规则。当空闲的机器出现时，缓冲区的任务会根据DRL选择调度规则并执行，执行后***会获得相应的奖励并进入下一个状态，以此循环继续进行，直到处理完所有任务为止。

S7：利用所述生态矿山车间数字孪生模型对所述车间调度方案进行仿真验证，若通过验证，则依据所述车间调度方案对所述生态矿山车间的物理空间下发决策指令，以实现车间动态决策。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数字孪生的生态矿山动态决策方法，其特征在于，包括：

基于车间生产数据信息的特点，建立车间数据感知***；

提取所述车间数据中的实时状态信息；

2.根据权利要求1所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述生态矿山车间数字孪生模型包括元素维度模型、行为维度模型和规则维度模型；

3.根据权利要求1所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述车间生产数据信息的特点包括：多源异构、实时、关联和突发。

4.根据权利要求1至3任一项所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述车间数据感知***包括数据采集子***、数据传输子***和数据服务子***，所述数据采集子***用于对生态矿山车间的物理空间中的工件加工状态进行实时追踪感知，得到车间动态实时数据；

5.根据权利要求4所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述生态矿山车间状态事件的表征包括：

标签读取事件、RFID简单事件和RFID复杂事件；

所述标签读取事件表示为：

E_t＝E(e，r，t)

所述RFID简单事件表示为：

E_s＝{OE_t，AE_t，DE_t，SE_t，RE_t}

式中：

OE_t表示标签在某个时刻的空间状态；

AE_t表示到达事件，即标签进入读写器的读取范围内；

所述RFID复杂事件表示为：

E_c＝E(e,r,E_s,ts,te)

式中：

e表示各种相关的子事件共同构成复杂事件集合；

ts表示在复杂事件中开始时刻；

te表示在复杂事件中结束时刻。

6.根据权利要求1所述的基于数字孪生的生态矿山动态决策方法，其特征在于，根据所述实时状态信息，利用深度强化学习算法动态确定车间调度方案包括：

根据所述实时状态信息，确定车间调度方案的状态特征；

根据所述状态特征生成车间调度规则；

将车间调度规则作为深度强化学习算法的动作选取空间；

7.根据权利要求6所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述制造车间生产过程动态决策的效果奖励r₁为：

所述最大加工时间的固定奖励r₂为：

8.根据权利要求1、6或7所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述深度强化学习算法通过使用Bellman方程连续更新动作值函数，以动态确定车间调度方案。

9.根据权利要求8所述的基于数字孪生的生态矿山动态决策方法，其特征在于，所述Bellman方程为：