CN117252488B

CN117252488B - 基于大数据的产业集群能效优化方法及***

Info

Publication number: CN117252488B
Application number: CN202311524773.5A
Authority: CN
Inventors: 陈沛光; 彭聪; 韩顺杰; 宋磊; 王静; 田子豪; 王勇; 董吉哲; 王雨薇; 高垚; 楚云飞; 李博强; 丁一涵; 郝思马; 韩旭; 吴思娴
Original assignee: Changchun University of Technology; Economic and Technological Research Institute of State Grid Jilin Electric Power Co Ltd
Current assignee: Changchun University of Technology; Economic and Technological Research Institute of State Grid Jilin Electric Power Co Ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-09
Anticipated expiration: 2043-11-16
Also published as: CN117252488A

Abstract

本发明提供了基于大数据的产业集群能效优化方法及***，属于产业能效优化技术领域。首先收集产业集群数据；其次将所述产业集群数据进行数据处理，得到标准产业集群数据；然后构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据；再分析所述新产业集群数据，得到产业集群特征；最后将所述产业集群特征输入到一维网络模型中进行特征提取，预测能效水平并进行后续处理优化。本发明通过收集产业集群数据进行分析，提取产业集群的关键特征，输入到一维网络模型中，以预测和优化能效水平，整个过程涉及数据处理、模型建立和机器学习算法，旨在提高能效分析的精度和优化的效率，提高产业集群的可持续发展能力。

Description

基于大数据的产业集群能效优化方法及***

技术领域

本发明属于产业能效优化技术领域，具体涉及基于大数据的产业集群能效优化方法及***。

背景技术

产业集群是指在一定区域内，由相互关联的企业、专业化的供应商、服务提供商、相关机构和政府部门组成的一种经济组织形式。产业集群的形成和发展，有利于提高产业的竞争力和创新能力，促进区域经济的增长和协调。然而，产业集群的能效水平也是影响其可持续发展的重要因素。能效水平不仅反映了产业集群的资源利用效率，也关系到产业集群的环境影响和社会责任。

目前，针对产业集群的能效优化方法，主要有以下几种：基于能源管理的方法，通过建立能源管理体系，制定能源政策和目标，实施能源审计和监测，提高能源管理水平，从而提高产业集群的能效水平；基于能源诊断的方法，通过对产业集群的能源消耗和能源效率进行分析，识别能源浪费和能效改进的潜力，提出能效改进的措施和方案，从而提高产业集群的能效水平；基于能源模型的方法，通过建立产业集群的能源模型，模拟产业集群的能源消耗和能源效率，优化产业集群的能源结构和能源配置，从而提高产业集群的能效水平。

上述方法虽然各有优势，但也存在一些不足之处，主要表现数据处理复杂，数据利用率低；能源诊断结果依赖于专家经验，改进措施缺乏科学依据；能源模型建立过程繁琐，适应性差，能源模型精度低。因此，开发一种能够处理大量数据并准确反映产业集群能效状态的优化方法变得尤为重要。

发明内容

基于上述技术问题，本发明提供基于大数据的产业集群能效优化方法及***，利用大数据技术，对产业集群的数据进行收集、处理、扩充、分析和提取，构建一维网络模型，预测产业集群的能效水平，为产业集群的能效优化提供数据支持和决策依据。

本发明提供基于大数据的产业集群能效优化方法，所述方法包括：

步骤S1：收集产业集群数据；

步骤S2：将所述产业集群数据进行数据处理，得到标准产业集群数据；

步骤S3：构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据；

步骤S4：分析所述新产业集群数据，得到产业集群特征；

步骤S5：将所述产业集群特征输入到一维网络模型中进行特征提取，预测能效水平。

可选地，所述构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据，具体包括：

收集所述标准产业集群的用电量和特征数据；

根据所述产业集群的用电特性，建立电力***模型；

使用负荷流仿真模型，根据所述电力***的输入条件，求解出电力***的输出状态；

将所述电力***的输出状态作为新的特征，添加到所述标准产业集群数据，得到新产业集群数据。

可选地，所述分析新产业集群数据，得到产业集群特征，具体包括：

将产业集群特征进行标准化，并进行初步筛选，得到筛选特征；

计算所述筛选特征与能效标签的互信息值，构建影响网络；

采用社区发现算法识别所述影响网络的社区结构，并将每个社区的特征进行中心性评分；

根据所述中心性评分，选择不同社区相关性最高的特征，删除相同社区冗余特征；

使用集成学习方法进行验证，确定产业集群特征。

可选地，所述将所述产业集群特征输入到一维网络模型中进行特征提取，预测能效水平，具体包括：

一维网络模型包括第一标准卷积模块，第一分支残差模块，第二分支残差模块，门控注意力机制模块，全局池化分类模块；

将所述产业集群特征输入到所述第一标准卷积模块进行标准卷积操作，得到特征图E2；

将所述特征图E2输入到所述第一分支残差模块进行残差操作，得到特征图E15；

将所述特征图E15输入到所述第二分支残差模块进行残差操作，得到特征图E28；

将所述特征图E28输入到所述门控注意力机制模块进行残差操作，得到特征图E38；

将所述特征图E38输入到所述全局池化分类模块，输出能效水平分类结果。

可选地，所述将所述特征图E2输入到所述第一分支残差模块进行残差操作，得到特征图E15，具体包括：

所述第一分支残差模块包括第一分支残差输入层、第二标准卷积层、第三标准卷积层、第四标准卷积层、第五标准卷积层、第一张量拼接层、第一元素相加层、第六标准卷积层、第二张量拼接层、第二元素相加层、第三张量拼接层、第七标准卷积层、第三元素相加层、第一最大池化层；

将所述特征图E2输入到所述第二标准卷积层进行标准卷积操作，得到特征图E3；

将所述特征图E2输入到所述第三标准卷积层进行标准卷积操作，得到特征图E4；

将所述特征图E2输入到所述第四标准卷积层进行标准卷积操作，得到特征图E5；

将所述特征图E4和所述特征图E5输入到所述第一张量拼接层进行张量拼接操作，得到特征图E6；

将所述特征图E2输入到所述第五标准卷积层进行标准卷积操作，得到特征图E7；

将所述特征图E5和所述特征图E7输入到所述第一元素相加层进行元素相加操作，得到特征图E8；

将所述特征图E6和所述特征图E8输入到所述第二张量拼接层进行张量拼接操作，得到特征图E9；

将所述特征图E2输入到所述第六标准卷积层进行标准卷积操作，得到特征图E10；

将所述特征图E8和所述特征图E10输入到所述第二元素相加层进行元素相加操作，得到特征图E11；

将所述特征图E9和所述特征图E11输入到所述第三张量拼接层进行张量拼接操作，得到特征图E12；

将所述特征图E12输入到所述第七标准卷积层进行标准卷积操作，得到特征图E13；

将所述特征图E3和所述特征图E13输入到所述第三元素相加层进行元素相加操作，得到特征图E14；

将所述特征图E14输入到所述第一最大池化层进行最大池化操作，得到特征图E15。

本发明还提供基于大数据的产业集群能效优化***，其特征在于，所述***包括：

数据收集模块，用于收集产业集群数据；

数据处理模块，用于将所述产业集群数据进行数据处理，得到标准产业集群数据；

数据扩充模型构建模块，用于构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据；

特征筛选模块，用于分析所述新产业集群数据，得到产业集群特征；

特征提取模块，用于将所述产业集群特征输入到一维网络模型中进行特征提取，预测能效水平。

可选地，所述数据扩充模型构建模块，具体包括：

数据获取子模块，用于收集所述标准产业集群的用电量和特征数据；

电力***模型构建子模块，用于根据所述产业集群的用电特性，建立电力***模型；

求解参数子模块，用于使用负荷流仿真模型，根据所述电力***的输入条件，求解出电力***的输出状态；

特征扩充子模块，用于将所述电力***的输出状态作为新的特征，添加到所述标准产业集群数据，得到新产业集群数据。

可选地，所述特征筛选模块，具体包括：

标准化处理子模块，用于将产业集群特征进行标准化，并进行初步筛选，得到筛选特征；

影响网络构建子模块，用于计算所述筛选特征与能效标签的互信息值，构建影响网络；

特征评分子模块，用于采用社区发现算法识别所述影响网络的社区结构，并将每个社区的特征进行中心性评分；

特征选取删除子模块，用于根据所述中心性评分，选择不同社区相关性最高的特征，删除相同社区冗余特征；

特征确定子模块，使用集成学习方法进行验证，确定产业集群特征。

可选地，所述特征提取模块，具体包括：

第一标准卷积子模块，用于将所述产业集群特征输入到所述第一标准卷积模块进行标准卷积操作，得到特征图E2；

第一分支残差子模块，用于将所述特征图E2输入到所述第一分支残差模块进行残差操作，得到特征图E15；

第二分支残差子模块，用于将所述特征图E15输入到所述第二分支残差模块进行残差操作，得到特征图E28；

门控注意力机制子模块，用于将所述特征图E28输入到所述门控注意力机制模块进行残差操作，得到特征图E38；

全局池化分类子模块，用于将所述特征图E38输入到所述全局池化分类模块，输出能效水平分类结果。

可选地，所述第一分支残差子模块，具体包括：

所述第一分支残差子模块包括第一分支残差输入层、第二标准卷积层、第三标准卷积层、第四标准卷积层、第五标准卷积层、第一张量拼接层、第一元素相加层、第六标准卷积层、第二张量拼接层、第二元素相加层、第三张量拼接层、第七标准卷积层、第三元素相加层、第一最大池化层；

第二标准卷积单元，用于将所述特征图E2输入到所述第二标准卷积层进行标准卷积操作，得到特征图E3；

第三标准卷积单元，用于将所述特征图E2输入到所述第三标准卷积层进行标准卷积操作，得到特征图E4；

第四标准卷积单元，用于将所述特征图E2输入到所述第四标准卷积层进行标准卷积操作，得到特征图E5；

第一张量拼接单元，用于将所述特征图E4和所述特征图E5输入到所述第一张量拼接层进行张量拼接操作，得到特征图E6；

第五标准卷积单元，用于将所述特征图E2输入到所述第五标准卷积层进行标准卷积操作，得到特征图E7；

第一元素相加单元，用于将所述特征图E5和所述特征图E7输入到所述第一元素相加层进行元素相加操作，得到特征图E8；

第二张量拼接单元，用于将所述特征图E6和所述特征图E8输入到所述第二张量拼接层进行张量拼接操作，得到特征图E9；

第六标准卷积单元，用于将所述特征图E2输入到所述第六标准卷积层进行标准卷积操作，得到特征图E10；

第二元素相加单元，用于将所述特征图E8和所述特征图E10输入到所述第二元素相加层进行元素相加操作，得到特征图E11；

第三张量拼接单元，用于将所述特征图E9和所述特征图E11输入到所述第三张量拼接层进行张量拼接操作，得到特征图E12；

第七标准卷积单元，用于将所述特征图E12输入到所述第七标准卷积层进行标准卷积操作，得到特征图E13；

第三元素相加单元，用于将所述特征图E3和所述特征图E13输入到所述第三元素相加层进行元素相加操作，得到特征图E14；

第一最大池化单元，用于将所述特征图E14输入到所述第一最大池化层进行最大池化操作，得到特征图E15。

本发明与现有技术相比，具有以下有益效果：

本发明构建了负荷流仿真模型，将标准产业集群数据进行数据扩充，得到新产业集群数据，增加了数据的维度和信息量，为产业集群的能效分析提供了更多的数据源；采用了影响网络和社区发现算法，分析新产业集群数据，得到产业集群特征，有效地识别了影响产业集群能效水平的关键特征，为产业集群的能效改进提供了科学依据；构建了一维网络模型，将产业集群特征输入到一维网络模型中进行特征提取，预测能效水平，提高了能效预测的精度和效率，为产业集群的能效评估提供了可靠的方法。

附图说明

图1为本发明的基于大数据的产业集群能效优化方法流程图；

图2为本发明的基于大数据的产业集群能效优化方法中的一维网络模型结构图；

图3为本发明的基于大数据的产业集群能效优化方法中的一维网络模型中的第一分支残差模块结构图；

图4为本发明的基于大数据的产业集群能效优化方法中的一维网络模型中的第二分支残差模块结构图；

图5为本发明的基于大数据的产业集群能效优化方法中的一维网络模型中的门控注意力机制模块结构图；

图6为本发明的基于大数据的产业集群能效优化***结构图。

具体实施方式

下面结合具体实施案例和附图对本发明作进一步说明，但本发明并不局限于这些实施例。

实施例1

如图1所示，本发明公开基于大数据的产业集群能效优化方法，方法包括：

步骤S1：收集产业集群数据。

步骤S2：将产业集群数据进行数据处理，得到标准产业集群数据。

步骤S3：构建负荷流仿真模型，将标准产业集群数据进行数据扩充，得到新产业集群数据。

步骤S4：分析新产业集群数据，得到产业集群特征。

步骤S5：将产业集群特征输入到一维网络模型中进行特征提取，预测能效水平。

下面对各个步骤进行详细论述：

步骤S1：收集产业集群数据。

步骤S1具体包括：

收集与吉林省的产业集群相关的数据；这些数据可以包括各种类型的信息，如名称，位置，规模，产值，主要产品，主要企业，产业链结构，能源消耗，环境影响、产业产出、能源消耗、就业情况、生产设备信息、供应链数据等等。从各种来源获取数据，包括政府部门、行业协会、企业报告、研究机构、调查和采样等。

步骤S2具体包括：

将产业集群数据进行数据清洗，具体包括：

去除异常值，异常值是指与数据集中大多数观测值明显不符合的数值，它们可能是由于测量错误、录入错误或其他原因造成的。异常值的存在会影响数据的分布和统计特征，因此需要进行检测和处理，异常值检测方法采用箱线图和/或3σ法则。

填补缺失值，缺失值是指数据集中某些变量或观测值没有记录的情况，它们可能是由于数据收集或保存失败、人为遗漏或有意隐瞒等原因造成的。缺失值的存在会降低数据的完整性和有效性，因此需要进行识别和处理。常用的缺失值识别方法有空值、空格、字符串"None"、自定义标识符等。缺失值处理方法采用统计量填充和插值法。

本实施例中，数据清洗是对原始收集到的产业集群数据进行处理，以提高数据的质量和可用性。

步骤S3具体包括：

收集并整理产业集群的用电量和特征数据，如用电量、产值、规模、类型、工艺等，形成数据集。

根据产业集群的用电特性，建立一个合适的电力***模型，包括发电机、负荷、线路等元件，以及它们的参数和连接方式。

使用负荷流仿真模型，根据电力***的输入条件，求解出电力***的输出状态，如各节点的电压、电流、功率、功率因数、电压幅值、相角、有功和无功等。具体包括：

本实施例中，负荷流仿真模型公式为：

式中，表示第个结点的有功注入/>等于该节点与其他所有节点之间的有功流量之和，/>为节点的数量，/>和/>分别为第/>个结点和第/>个结点的电压幅值，/>和/>分别为第/>个结点和第/>个结点的导纳矩阵的实部和虚部，/>为第/>个结点和第/>个结点的电压相角差，导纳矩阵是一种描述电力***中各个节点之间的电气关系的矩阵，它的元素是导纳，导纳是电阻和电抗的倒数，电阻和电抗是电力***中的两种阻碍电流的物理量。

式中，表示第个结点的无功注入/>等于该节点与其他所有节点之间的无功流量之和，/>为节点的数量，/>和/>分别为第/>个结点和第/>个结点的电压幅值，/>和/>分别为第/>个结点和第/>个结点的导纳矩阵的实部和虚部，/>为第/>个结点和第/>个结点的电压相角差。

本实施例中，负荷流模型是一种描述电力***中电压、电流、功率等物理量之间关系的数学模型；负荷流模型的目的是求解电力***的稳态运行状态；如果电力***有4个节点，分别为发电机节点1，负荷节点2，3，4，则可以用牛顿-拉夫逊法求解负荷流模型，具体步骤如下：

初始化结点的电压幅值和相角，如，初始时，假设所有节点的电压幅值都为1.0，电压相角都为0，即所有节点的电压波形都是同步的。

计算节点的有功和无功注入，如，/>，/>，，/>，/>，/>，/>，根据电力***的输入条件，如发电机的有功和无功出力、负荷的有功和无功需求等，计算每个节点的功率平衡，即节点的输入功率和输出功率之差。正值表示节点的功率注入，负值表示节点的功率需求。

计算节点的有功和无功失配，具体包括：

，/>

后续以此类推，根据电力***的输出状态，如各节点的电压幅值和相角、各支路的电阻和电抗等，计算每个节点的功率失配，即节点的功率注入和功率需求之差。功率失配越小，表示电力***越接近潮流解，功率失配越大，表示电力***越远离潮流解。

判断节点的有功和无功失配是否满足精度要求，，其中，为给定的误差容限，如0.001。如果满足，则停止迭代，输出结果；如果不满足，则继续下一步。根据一个预先设定的误差标准，判断电力***是否达到潮流解，如果达到，则输出各节点的电压幅值和相角，如果没有，则需要继续修正电压幅值和相角。

计算雅克比矩阵，元素分别为：

，/>，/>，/>

根据电力***的输出状态，计算雅可比矩阵，雅可比矩阵是一种描述电力***中各个变量之间的微分关系的矩阵，它的元素是偏导数，偏导数表示一个变量对另一个变量的变化率，雅可比矩阵可以用于求解电力***的潮流方程组。

计算节点的电压幅值和相角的修正量和/>，满足方程/>=，/>和/>为节点的有功和无功失配向量。根据雅可比矩阵和节点的功率失配，求解节点的电压幅值和相角的修正量，修正量表示需要调整的幅度，修正量越大，表示电力***越远离潮流解，修正量越小，表示电力***越接近潮流解。

更新节点的电压幅值和相角，公式为，/>，其中，/>为节点编号，根据节点的电压幅值和相角的修正量，更新节点的电压幅值和相角，使之更接近潮流解。

重复迭代，直到收敛或达到最大迭代次数。根据更新后的节点的电压幅值和相角，重新计算节点的功率注入、功率失配、雅可比矩阵、电压幅值和相角的修正量等，直到节点的功率失配满足精度要求，或者达到预先设定的最大迭代次数，停止计算，输出状态。

本实施例中，将产业集群和负荷流仿真模型在实际应用下进行数据扩充，具体需要何种数据根据实际情况而定。

产业集群数据集包括用电量、产值、规模、类型、工艺等信息作为特征，如下表1所示。

为了对该数据集进行数据扩充，可以使用负荷流仿真模型来模拟不同工业过程的用电模式，从而增加数据集的质量和多样性。首先，需要根据产业集群的用电特性，建立一个合适的电力***模型，在本实施例中，电力***模型是一个简单的四节点***，包括一个发电机作为电源，三个负荷分别代表三个不同的工业过程，以及四条线路连接各个节点。电力***模型的拓扑结构如下：

节点1是发电机节点，它的电压幅值和相角是已知的，如它的有功和无功出力是已知的，如/>，/>；节点2，3，4是负荷节点，它们的电压幅值和相角是未知的，需要求解，如/>，/>等，它们的有功和无功需求是已知的，如/>，/>等；线路1，2，3，4是连接各个节点的导线，它们的电阻和电抗是已知的，如，/>等；它们的电流和功率是未知的，需要求解，如/>，/>等。

Simulink模型是一种用于仿真电力***模型的图形化工具，它可以使用MATLAB和Simulink等软件来搭建和运行。在这个示例中，Simulink模型是一个由不同的图形化模块组成的电路图，它可以反映电力***模型的拓扑结构、元件参数、运行条件等。Simulink模型的组成如下：

一个三相电压源模块，用于模拟发电机的电压波形，它的参数是电压幅值、频率、相角等，如，/>，/>等；三个三相负荷模块，用于模拟负荷的电阻和电抗，它们的参数是电阻、电抗、功率因数等，如/>，/>，/>等；四个三相传输线模块，用于模拟线路的电阻和电抗，它们的参数是电阻、电抗、长度等，如，/>，/>等；四个三相电压测量模块，用于测量各个节点的电压幅值和相角，它们的输出是电压的实部和虚部，如/>，/>等；四个三相功率测量模块，用于测量各个支路的电流和功率，它们的输出是电流的实部和虚部，以及有功和无功功率，如，/>，/>，/>等。

通过运行Simulink模型，得到每个负荷的电流、功率、功率因数等参数，具体步骤如下：

打开MATLAB和Simulink软件，创建一个新的Simulink项目，或者打开一个已有的Simulink项目；在Simulink的图形界面中，从左侧的模块库中，选择相应的模块，拖拽到右侧的画布中，按照电力***模型的拓扑结构，连接各个模块，形成一个完整的电路图；双击每个模块，设置其参数，如电压幅值、电阻、电抗等；在画布的右上角，选择仿真的开始时间和结束时间，如0秒和10秒，以及仿真的步长，如0.01秒，或者使用默认的设置；点击画布的右上角的绿色三角形按钮，开始仿真，或者按F5键，开始仿真；等待仿真结束，查看仿真的结果，如各个节点的电压幅值和相角，各个支路的电流和功率等，或者将仿真的结果导出到外部的数据文件中，如Excel表格、文本文件等。

根据仿真的结果，计算每个负荷的电流、功率、功率因数等参数，如电流等于电压除以阻抗，功率等于电压乘以电流，功率因数等于有功功率除以视在功率等，运行结果如下表2所示。

将电力***的输出状态作为新的特征，添加到原始的产业集群数据集中，得到扩充后的数据集，如表3所示。

重复上述步骤，根据不同的输入条件，生成不同的输出状态，从而增加数据集的质量和多样性。

通过这种方法，可以利用负荷流仿真模型对产业集群数据进行数据扩充，从而增强数据集的质量和多样性，为后续的数据分析、深度学习等提供更多的信息和维度。

步骤S4：分析新产业集群数据，得到产业集群特征。

步骤S4具体包括：

将产业集群特征进行标准化，并进行初步筛选，得到筛选特征，具体包括：

将所有特征进行标准化，使它们在相同的量度上进行比较，去除那些明显不相关或缺失数据过多的特征，得到筛选特征。这个步骤的目的是为了准备数据，去除噪声、异常值和无关特征。例如，特征值都是常数，或者特征与能效标签没有逻辑联系的特征，可以被筛选掉。

计算筛选特征与能效标签的互信息值，构建影响网络，具体包括：

利用互信息(Mutual Information)计算每个特征与能效标签之间的相关性，互信息是一种衡量两个变量之间包含的信息量的指标。它基于熵的概念，熵是一个变量的不确定性。两个变量之间的互信息是由于知道其中一个变量而导致另一个变量的不确定性减少的量。互信息越高，两个变量之间的相关性越强。互信息的计算公式为：

式中，为变量/>和/>之间的互信息，/>为变量/>的熵，/>是在给定变量/>的条件下，变量/>的条件熵。熵和条件熵的计算公式为：

式中，为变量/>的概率分布，/>为在给定变量/>的条件下，变量/>的条件概率分布，互信息的值越大，表示变量/>和/>之间的相关性越强，即变量/>对变量的预测有更大的贡献。

构建一个特征影响网络，这个步骤的目的是构建一个表示特征之间影响关系的网络，使用一种可以捕捉两个特征在给定第三个特征的条件下的依赖性的标准。条件互信息是一种衡量两个变量在给定第三个变量的条件下包含的信息量的指标。它基于条件熵的概念，条件熵是在给定另一个变量的条件下，一个变量的不确定性。两个变量在给定第三个变量的条件下的条件互信息是由于知道其中一个变量而导致另一个变量在给定第三个变量的条件下的不确定性减少的量。条件互信息越高，两个变量在给定第三个变量的条件下的影响越大。

特征影响网络是一个网络，其中的节点代表特征，边代表特征之间的条件互信息。边的权重与条件互信息的值成正比，边的方向由特征之间的偏相关系数的符号决定。

条件互信息的计算公式为：

式中，为在给定变量/>的条件下，变量/>和/>之间的条件互信息，为在给定变量/>的条件下，变量/>的条件熵，/>是在给定变量/>和的条件下，变量/>的条件熵。条件熵的计算公式与熵的计算公式类似，只是加上了条件概率分布。条件互信息的值越大，表示变量/>和/>在给定变量/>的条件下的影响越大，即变量/>和/>之间存在条件依赖关系。

使用条件互信息来构建一个特征影响网络，网络中的节点代表特征，边代表特征之间的条件互信息。边的权重与条件互信息的值成正比，边的方向由特征之间的偏相关系数的符号决定。偏相关系数是在控制其他变量的影响后，两个变量之间的相关系数。偏相关系数的符号表示两个变量之间的关系是正相关还是负相关。使用以下公式来计算偏相关系数：

式中，为在给定变量/>的条件下，变量/>和/>之间的偏相关系数，/>为变量/>和/>之间的相关系数，/>为变量/>和/>之间的相关系数，偏相关系数的值越接近1或-1，表示变量/>和/>在给定变量/>的条件下的相关性越强。

采用社区发现算法识别影响网络的社区结构，并将每个社区的特征进行中心性评分，具体包括：

这个步骤的目的是在影响网络中识别那些紧密连接的节点群组，使用Louvain算法来优化一个质量函数，反映网络的模块化程度。模块化优化是一种将网络划分为社区的技术，使得社区内的边数最大化，社区间的边数最小化。模块化是一个质量函数，量化了网络划分的好坏，通过比较社区内外的实际边数和随机网络中的期望边数。模块化越高，划分质量越好。

Louvain方法这是一种快速且可扩展的模块化优化算法，通过迭代地执行局部移动和全局合并。在局部移动中，每个节点移动到其邻居中的一个社区，使得模块化最大化。在全局合并中，每个社区被视为一个节点，社区间的边被聚合，形成一个新的网络。算法重复这两个步骤，直到模块化不再改善为止。

使用节点中心性评分评估每个特征的影响力，节点中心性评分是一种衡量网络中一个节点的重要性的指标，基于不同的标准。有许多类型的节点中心性指标，如度中心性、紧密中心性、介数中心性和特征向量中心性。每种中心性指标反映了节点在网络中的不同角色和影响。例如，度中心性衡量一个节点的邻居数，紧密中心性衡量一个节点到所有其他节点的平均距离，介数中心性衡量经过一个节点的最短路径数，特征向量中心性衡量一个节点及其邻居的影响力，根据实际情况选择节点中心性指标。

根据中心性评分，选择不同社区相关性最高的特征，删除相同社区冗余特征，具体包括：

根据中心性评分，从每个社区中选择与能效标签相关性最高的特征，删除相同社区中冗余或高度相关的特征。这个步骤的目的是选择最相关且最多样的特征，以保证特征集的质量和综合性。相关性最高的特征可以保证与预测任务的相关性，多样性保证可以避免选择冗余或相关的特征，从而提高特征的信息量和独立性。

确保所选特征来自不同的社区，以确保特征集的多样性和全面性。这样可以避免选择属于同一社区的冗余或相关要素。如果所选要素集包含具有高相关性的要素对，则移除影响得分较低的要素，这确保了所选功能是独立的和信息丰富的。

识别高相关性特征对，确定哪些特征之间的相关性超过了某个设定的阈值。这意味着它们可能在预测目标变量时提供了相似的信息。

比较互信息值，对于每一对高度相关的特征，计算它们各自与目标变量(能效标签)的互信息值。互信息值高意味着特征和目标变量之间的相互依赖性强，即该特征对预测目标变量非常有用。

剔除冗余特征，在一对高度相关的特征中，保留互信息值高的特征，而移除互信息值低的特征。通过这种方式，保留那些对预测目标变量影响更大的特征，同时减少模型复杂度和过拟合的风险。

使用集成学习方法对特征集进行验证，确定产业集群特征，具体包括：

使用随机森林，来评估选择的特征集的预测准确率；集成学习是一种结合多个基学习器来产生更准确和更稳健的预测的技术。随机森林是一种集成学习方法，它构建了一组决策树，每棵树都在特征和数据的随机子集上进行训练，并通过多数投票来聚合它们的预测；最终的特征选择是根据验证结果，选择预设个数的特征，作为产业集群特征，为后续输入到卷积神经网络做准备。

本实施例中，设计能效相关性与影响网络分析(ERA-IN)，此方法可以从多个角度对特征进行评估和筛选，以提高特征的质量和多样性。这个方法的优势是能够捕捉特征与能效标签之间的线性和非线性关系，以及特征之间的条件依赖关系，从而选择最具信息量和影响力的特征，选择16个特征作为后续分析。

图2-图5中，Conv1D表示标准卷积层，卷积核尺寸为7，3和1；Strides表示步长，取值1或2；规范化激活层包含批归一化层(Batch Normalization)和激活函数层(Activation(Relu))，规范化激活层选择Relu激活函数，全连接激活层(Activation())，/>取值为Relu，Sigmoid和Softmax；MBR Input表示分支残差输入层，GA Input表示门控注意力输入层；Dense代表全连接层；GAP1D表示全局平均池化层，Multiply(/>,/>)表示/>，/>进行逐元素相乘；Add(/>,/>)表示/>，/>进行逐元素相加；Concat(/>,/>)表示/>，/>进行张量拼接；Dropout(/>)表示随机失活概率为/>；MaxPooling表示最大池化层；Reshape(/>)表示对/>进行形状重塑，E/>表示特征提取网络中得到的各特征图，/>取值范围为[1,39]，/>为整数。

步骤S5具体包括：

将产业集群特征(输入数据)输入到第一标准卷积模块进行标准卷积操作，得到特征图E2，具体包括：

将产业集群数据输入到第一标准卷积层进行卷积操作，得到特征图E1，第一标准卷积层卷积核数量为16，卷积核尺寸为7，步长为2；特征图E1为(,64)；将特征图E1输入到第一规范化激活层进行批归一化和激活操作，得到特征图E2；特征图E2为(,64)。

本实施例中，(,64)代表批量大小未知，序列长度未知，但输出了64个特征图的输出，(,64)也可以写成(?,?,64)，第一个?通常代表批量大小(batch size)，即在模型训练或预测时一次输入数据的数量。在模型定义时，可能不知道批量大小会是多少，因此这个位置用问号表示；第二个?代表序列长度(sequence length)，在处理如时间序列数据或文本数据时这一维度非常重要。对于1D卷积神经网络(1D-CNN)来说，这个维度通常是时间步(timesteps)或序列中的位置索引。在某些情况下，如果处理的是固定大小的数据，这个维度会是已知的，但在很多情况下，尤其是在定义模型时，这个维度可能是变长的或未指定的；第三个数字(如64或32)表示该层输出的特征数或通道数。在CNN中，这相当于过滤器或卷积核的数量。每个卷积核产生一个特征图，因此这个维度代表了有多少个独立的特征图被计算出来。根据具体实际情况设定；

本实施例中，第一标准卷积模块包括第一标准卷积层和第一规范化激活层。

将特征图E2输入到第一分支残差模块进行残差操作，得到特征图E15，具体包括：

将特征图E2(第一规范化激活层输出)输入到第二标准卷积层进行标准卷积操作，得到特征图E3；第二标准卷积层卷积核数量为128，卷积核尺寸为1，步长为1；特征图E3为(,128)；将特征图E2输入到第三标准卷积层进行标准卷积操作，得到特征图E4；第三标准卷积层卷积核数量为32，卷积核尺寸为3，步长为1；特征图E4为(,32)；将特征图E2输入到第四标准卷积层进行标准卷积操作，得到特征图E5；第四标准卷积层卷积核数量为32，卷积核尺寸为3，步长为1；特征图E5为(,32)；将特征图E4和特征图E5输入到第一张量拼接层进行张量拼接操作，得到特征图E6；特征图E6为(,64)；将特征图E2输入到第五标准卷积层进行标准卷积操作，得到特征图E7；第五标准卷积层卷积核数量为32，卷积核尺寸为3，步长为1；特征图E7为(,32)；将特征图E5和特征图E7输入到第一元素相加层进行元素相加操作，得到特征图E8；特征图E8为(,32)；将特征图E6和特征图E8输入到第二张量拼接层进行张量拼接操作，得到特征图E9；E9为(,96)；将特征图E2输入到第六标准卷积层进行标准卷积操作，得到特征图E10；第六标准卷积层卷积核数量为32，卷积核尺寸为3，步长为1；特征图E10为(,32)；将特征图E8和特征图E10输入到第二元素相加层进行元素相加操作，得到特征图E11；特征图E11为(,32)；将特征图E9和特征图E11输入到第三张量拼接层进行张量拼接操作，得到特征图E12；特征图E12为(,128)；将特征图E12输入到第七标准卷积层进行标准卷积操作，得到特征图E13；第七标准卷积层卷积核数量为128，卷积核尺寸为1，步长为1；特征图E13为(,128)；将特征图E3和特征图E13输入到第三元素相加层进行元素相加操作，得到特征图E14；特征图E14为(,128)；将特征图E14输入到第一最大池化层进行最大池化操作，得到特征图E15；第一最大池化层池化尺寸为3，步长为2；特征图E15为(,128)。

本实施例中，第一分支残差模块包括第一分支残差输入层、第二标准卷积层、第三标准卷积层、第四标准卷积层、第五标准卷积层、第一张量拼接层、第一元素相加层、第六标准卷积层、第二张量拼接层、第二元素相加层、第三张量拼接层、第七标准卷积层、第三元素相加层、第一最大池化层。

将特征图E15输入到第二分支残差模块进行残差操作，得到特征图E28，具体包括：

将特征图E15(第一最大池化层输出)输入到第八标准卷积层进行标准卷积操作，得到特征图E16；第八标准卷积层卷积核数量为256，卷积核尺寸为1，步长为1；特征图E16为(,256)；将特征图E15输入到第九标准卷积层进行标准卷积操作，得到特征图E17；第九标准卷积层卷积核数量为64，卷积核尺寸为3，步长为1；特征图E17为(,64)；将特征图E15输入到第十标准卷积层进行标准卷积操作，得到特征图E18；第十标准卷积层卷积核数量为64，卷积核尺寸为3，步长为1；特征图E18为(,64)；将特征图E17和特征图E18输入到第四张量拼接层进行张量拼接操作，得到特征图E19；特征图E19为(,128)；将特征图E15输入到第十一标准卷积层进行标准卷积操作，得到特征图E20；第十一标准卷积层卷积核数量为64，卷积核尺寸为3，步长为1；特征图E20为(,64)；将特征图E18和特征图E20输入到第四元素相加层进行元素相加操作，得到特征图E21；特征图E21为(,64)；将特征图E19和特征图E21输入到第五张量拼接层进行张量拼接操作，得到特征图E22；E22为(,192)；将特征图E15输入到第十二标准卷积层进行标准卷积操作，得到特征图E23；第十二标准卷积层卷积核数量为64，卷积核尺寸为3，步长为1；特征图E23为(,64)；将特征图E21和特征图E23输入到第五元素相加层进行元素相加操作，得到特征图E24；特征图E24为(,64)；将特征图E22和特征图E24输入到第六张量拼接层进行张量拼接操作，得到特征图E25；特征图E25为(,256)；将特征图E25输入到第十三标准卷积层进行标准卷积操作，得到特征图E26；第十三标准卷积层卷积核数量为256，卷积核尺寸为1，步长为1；特征图E26为(,256)；将特征图E16和特征图E26输入到第六元素相加层进行元素相加操作，得到特征图E27；特征图E27为(,256)；将特征图E27输入到第二最大池化层进行最大池化操作，得到特征图E28；第二最大池化层池化尺寸为3，步长为2；特征图E28为(,256)。

本实施例中，第二分支残差模块包括第二分支残差输入层、第八标准卷积层、第九标准卷积层、第十标准卷积层、第十一标准卷积层、第四张量拼接层、第四元素相加层、第十二标准卷积层、第五张量拼接层、第五元素相加层、第六张量拼接层、第十三标准卷积层、第六元素相加层、第二最大池化层。

将特征图E28输入到门控注意力机制模块进行残差操作，得到特征图E38，具体包括：

将特征图E28输入到第一全局平均池化层，得到特征向量(一维特征图)E29，如果一个卷积层输出的特征图形状是(?,?,256)，其中256是通道数，那么GAP层的输出将会是(?,256)。这里第一个?代表批次大小(batch size)，它在实际运行时才会被确定，256代表了经过GAP之后每个通道的平均值，因此输出是一个256维的向量；将特征向量E29输入到第一全连接激活层，得到特征向量E30；特征向量E30为(?,256)；激活函数为Relu，单元数为256；将E30输入到第一随机失活层进行失活，丢弃率为0.1，得到特征向量E31；特征向量E31为(?,256)；将特征向量E31输入到第二全连接激活层，得到特征向量E32；特征向量E32为(?,128)；激活函数为Relu，单元数为128；将E32输入到第二随机失活层进行失活，丢弃率为0.1，得到特征向量E33；特征向量E33为(?,128)；将特征向量E33输入到第三全连接激活层，得到特征向量E34；特征向量E34为(?,256)；激活函数为Sigmoid，单元数为256；将特征向量E33输入到第四全连接激活层，得到特征向量E35；特征向量E35为(?,256)；激活函数为Softmax，单元数为256；将特征向量E34和特征向量E35输入到第一元素相乘层进行元素相乘操作，得到特征向量E36；特征向量E36为(?,256)；将特征向量E36输入到形状重塑层，得到特征向量E37；特征向量E37为(?,1,256)；形状重塑层为了扩展维度以匹配输入维度，将特征向量E37和特征图E28输入到第二元素相乘层进行元素相乘，得到特征图E38；特征图E38为(,256)(也可表示为(?,?,256))。

本实施例中，第一全连接激活层、第一随机失活层、第二全连接激活层、第二随机失活层构成多层感知机(MLP)而不是单层的全连接层，加入了正则化项；第三全连接激活层、第四全连接激活层分别为门控信号层和引入注意力机制得分层，可以提供更复杂的特征表示。

本实施例中，门控注意力机制模块包括门控注意力输入层、第一全局平均池化层、第一全连接激活层、第一随机失活层、第二全连接激活层、第二随机失活层、第三全连接激活层、第四全连接激活层、第一元素相乘层、形状重塑层、第二元素相乘层。

将特征图E38输入到全局池化分类模块，输出能效水平分类结果，具体包括：

根据特征分类得到能效水平，主要根据产业集群的各种特征，如用电量、用电特性、电力***模型、影响网络、社区结构等，预测产业集群的能效水平，分为高、中、低三种类别；如果得到的能效水平是高的，说明产业集群的能源利用效率较高，资源消耗较低，碳排放较少，可以继续保持和优化现有的能源管理和技术措施，同时积极探索新的节能降碳的途径和方法，如利用可再生能源、开展能源互联网、实施碳捕集和利用等。如果得到的能效水平是中的，说明产业集群的能源利用效率一般，资源消耗较多，碳排放较高，需要加强能源管理和技术改造，提高能源利用效率，减少资源浪费，降低碳排放，如优化能量***、利用余热余压、推广高效节能设备、开展清洁生产和循环经济等。如果得到的能效水平是低的，说明产业集群的能源利用效率较低，资源消耗较大，碳排放较多，需要紧急采取有效的能源管理和技术措施，提升能源利用效率，减少资源消耗，降低碳排放，如改善能源结构、淘汰落后产能、实施节能诊断和监测、开展能效标杆和领跑者制度等。

本实施例中，全局池化分类模块包括第二全局平均池化层和全连接分类器，分类结果为高、中、低，具体分类根据实际情况设定能效水平等级。

本实施中，一维网络模型包括第一标准卷积模块，第一分支残差模块，第二分支残差模块，门控注意力机制模块，全局池化分类模块。

实施例2

如图6所示，本发明公开基于大数据的产业集群能效优化***，***包括：

数据收集模块10，用于收集产业集群数据。

数据处理模块20，用于将产业集群数据进行数据处理，得到标准产业集群数据。

数据扩充模型构建模块30，用于构建负荷流仿真模型，将标准产业集群数据进行数据扩充，得到新产业集群数据。

特征筛选模块40，用于分析新产业集群数据，得到产业集群特征。

特征提取模块50，用于将产业集群特征输入到一维网络模型中进行特征提取，预测能效水平。

作为一种可选地实施方式，本发明数据扩充模型构建模块30，具体包括：

数据获取子模块，用于收集标准产业集群的用电量和特征数据。

电力***模型构建子模块，用于根据产业集群的用电特性，建立电力***模型。

求解参数子模块，用于使用负荷流仿真模型，根据电力***的输入条件，求解出电力***的输出状态。

特征扩充子模块，用于将电力***的输出状态作为新的特征，添加到标准产业集群数据，得到新产业集群数据。

作为一种可选地实施方式，本发明特征筛选模块40，具体包括：

标准化处理子模块，用于将产业集群特征进行标准化，并进行初步筛选，得到筛选特征。

影响网络构建子模块，用于计算筛选特征与能效标签的互信息值，构建影响网络。

特征评分子模块，用于采用社区发现算法识别影响网络的社区结构，并将每个社区的特征进行中心性评分。

特征选取删除子模块，用于根据中心性评分，选择不同社区相关性最高的特征，删除相同社区冗余特征。

作为一种可选地实施方式，本发明特征提取模块50，具体包括：

一维网络模型包括第一标准卷积模块，第一分支残差模块，第二分支残差模块，门控注意力机制模块，全局池化分类模块。

第一标准卷积子模块，用于将产业集群特征输入到第一标准卷积模块进行标准卷积操作，得到特征图E2。

第一分支残差子模块，用于将特征图E2输入到第一分支残差模块进行残差操作，得到特征图E15。

第二分支残差子模块，用于将特征图E15输入到第二分支残差模块进行残差操作，得到特征图E28。

门控注意力机制子模块，用于将特征图E28输入到门控注意力机制模块进行残差操作，得到特征图E38。

全局池化分类子模块，用于将特征图E38输入到全局池化分类模块，输出能效水平分类结果。

作为一种可选地实施方式，本发明第一分支残差子模块，具体包括：

第一分支残差子模块包括第一分支残差输入层、第二标准卷积层、第三标准卷积层、第四标准卷积层、第五标准卷积层、第一张量拼接层、第一元素相加层、第六标准卷积层、第二张量拼接层、第二元素相加层、第三张量拼接层、第七标准卷积层、第三元素相加层、第一最大池化层。

第二标准卷积单元，用于将特征图E2输入到第二标准卷积层进行标准卷积操作，得到特征图E3。

第三标准卷积单元，用于将特征图E2输入到第三标准卷积层进行标准卷积操作，得到特征图E4。

第四标准卷积单元，用于将特征图E2输入到第四标准卷积层进行标准卷积操作，得到特征图E5。

第一张量拼接单元，用于将特征图E4和特征图E5输入到第一张量拼接层进行张量拼接操作，得到特征图E6。

第五标准卷积单元，用于将特征图E2输入到第五标准卷积层进行标准卷积操作，得到特征图E7。

第一元素相加单元，用于将特征图E5和特征图E7输入到第一元素相加层进行元素相加操作，得到特征图E8。

第二张量拼接单元，用于将特征图E6和特征图E8输入到第二张量拼接层进行张量拼接操作，得到特征图E9。

第六标准卷积单元，用于将特征图E2输入到第六标准卷积层进行标准卷积操作，得到特征图E10。

第二元素相加单元，用于将特征图E8和特征图E10输入到第二元素相加层进行元素相加操作，得到特征图E11。

第三张量拼接单元，用于将特征图E9和特征图E11输入到第三张量拼接层进行张量拼接操作，得到特征图E12。

第七标准卷积单元，用于将特征图E12输入到第七标准卷积层进行标准卷积操作，得到特征图E13。

第三元素相加单元，用于将特征图E3和特征图E13输入到第三元素相加层进行元素相加操作，得到特征图E14。

第一最大池化单元，用于将特征图E14输入到第一最大池化层进行最大池化操作，得到特征图E15。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的产业集群能效水平预测方法，其特征在于，所述方法包括：

步骤S1：收集产业集群数据；

步骤S3：构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据，具体包括：

收集所述标准产业集群的特征数据；

根据所述产业集群的用电特性和所述特征数据，建立负荷流仿真模型；

使用所述负荷流仿真模型，根据电力***的输入条件，求解出电力***的输出状态；

将所述电力***的输出状态作为新的特征，添加到所述标准产业集群数据，得到新产业集群数据；

步骤S4：分析所述新产业集群数据，得到产业集群特征，具体包括：

将新产业集群数据进行标准化，并进行初步筛选，得到筛选特征；

计算所述筛选特征与能效标签的互信息值，构建影响网络；

根据所述中心性评分，从每个社区中选择与能效标签相关性最高的特征并删除相同社区冗余特征；

使用集成学习方法对剔除所述冗余特征后得到的特征集进行验证，确定产业集群特征；

步骤S5：将所述产业集群特征输入到一维网络模型中进行特征提取并预测能效水平，具体包括：

2.根据权利要求1所述的基于大数据的产业集群能效水平预测方法，其特征在于，所述将所述特征图E2输入到所述第一分支残差模块进行残差操作，得到特征图E15，具体包括：

3.基于大数据的产业集群能效水平预测***，其特征在于，所述***包括：

数据收集模块，用于收集产业集群数据；

数据扩充模型构建模块，用于构建负荷流仿真模型，将所述标准产业集群数据进行数据扩充，得到新产业集群数据，具体包括：

数据获取子模块，用于收集所述标准产业集群的特征数据；

电力***模型构建子模块，用于根据所述产业集群的用电特性和所述特征数据，建立负荷流仿真模型；

求解参数子模块，用于使用所述负荷流仿真模型，根据电力***的输入条件，求解出电力***的输出状态；

特征扩充子模块，用于将所述电力***的输出状态作为新的特征，添加到所述标准产业集群数据，得到新产业集群数据；

特征筛选模块，用于分析所述新产业集群数据，得到产业集群特征，具体包括：

标准化处理子模块，用于将新产业集群数据进行标准化，并进行初步筛选，得到筛选特征；

特征选取删除子模块，用于根据所述中心性评分，从每个社区中选择与能效标签相关性最高的特征并删除相同社区冗余特征；

特征确定子模块，用于使用集成学习方法对剔除所述冗余特征后得到的特征集进行验证，确定产业集群特征；

特征提取模块，用于将所述产业集群特征输入到一维网络模型中进行特征提取并预测能效水平，具体包括：

4.根据权利要求3所述的基于大数据的产业集群能效水平预测***，其特征在于，所述第一分支残差子模块，具体包括：