CN116863032B

CN116863032B - 一种基于生成对抗网络的洪涝灾害场景生成方法

Info

Publication number: CN116863032B
Application number: CN202310768422.2A
Authority: CN
Inventors: 王龙宝; 徐溶; 毛莺池; 储洪强; 张雪洁; 徐淑芳; 陈哲
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-04-09
Anticipated expiration: 2043-06-27
Also published as: CN116863032A

Abstract

本发明公开了一种基于生成对抗网络的洪涝灾害场景生成方法，包括：采集洪涝灾害相关信息，建立文本图像对数据集；对文本图像对数据集进行预处理，将文本图像对数据集分为训练集和验证集；根据构建好的生成器和鉴别器形成生成对抗网络模型；使用文本图像对数据集对生成对抗网络模型进行训练；通过生成对抗网络模型，根据文本生成洪涝灾害图像。本发明将文本编码器作为生成器的部分之一，进行预训练，利于生成细粒度更高的高质量图像，在融合块中，文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合，鉴别器损失使用单项输出能够加速生成器收敛，能够生成高质量的洪涝灾害图像，同时能够保证文本与生成图像之间的语义一致性。

Description

一种基于生成对抗网络的洪涝灾害场景生成方法

技术领域

本发明属于洪涝灾害图像领域，涉及人工智能方向中计算机视觉和自然语言处理相关技术，具体涉及一种基于生成对抗网络的洪涝灾害场景生成方法。

背景技术

洪涝灾害一直在我国是一个待解决的问题，洪涝灾害对我国的农业生产和经济有重大影响，每年我国洪涝灾害对人民、建筑、经济产生直接负面影响，如何预防和减少洪涝灾害对国家和人民的损失是一个需要待解决的重要问题。我国降雨东多西少，降雨分布不均，很容易发生洪涝灾害。当洪涝来临时，很难做出应急反应去减少对人民和国家的损失。为此，需要根据天气和洪涝灾害产生因素相关的指标信息模拟出洪涝灾害来临时的场景，以此做出响应方案来面对洪涝灾害。

随着人工智能技术的进步，GAN网络的出现推进了由计算机视觉与自然语言处理相结合的文本生成图像这一领域，将人类的语言描述转换成图像，在此是构造出洪涝灾害的场景。生成对抗网络模型包含一个生成模型和判别模型，生成模型捕捉样本特征生图像，判别模型则是判别生成的图像是样本图像还是真实图像，以及评判生成图像的语义一致性程度。整个过程二者互相博弈，生成器生成高质量图像的能力越来越强，判别器判别图像真伪的能力越来越强，来达到提高各自能力的目的。当前文本生成图像中还有一些不足与待解决的问题：1.生成的图像质量不高，分辨率低，特别是对于自然灾害中需要更高的分辨率图像来模拟灾害。2.图像与文本语义不一致，生成不了文本描述样式的图像。

所以如何提高图像质量和图像文本之间的语义一致性是文本生成图像待解决的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于生成对抗网络的洪涝灾害场景生成方法，能够生成高质量的洪涝灾害图像，同时能够保证文本与生成图像之间的语义一致性。

技术方案：为实现上述目的，本发明提供一种基于生成对抗网络的洪涝灾害场景生成方法，包括如下步骤：

S1：采集洪涝灾害相关信息，建立文本图像对数据集；

S2：对文本图像对数据集进行预处理，将文本图像对数据集分为训练集和验证集；

S3：根据构建好的生成器和鉴别器形成生成对抗网络模型；

S4：使用文本图像对数据集对生成对抗网络模型进行训练，得到训练好的生成对抗网络模型；

S5：通过训练好的生成对抗网络模型，根据文本生成洪涝灾害图像。

所述步骤S1中洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像，其中，洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体，其中致灾因子是引起灾害的动力诱因，主要包括平均降雨量、最大雨量等等。孕灾环境是指发生洪涝灾害下的自然环境，包括河网等级和坡度数据，承灾体指标提供人口密度、耕地面积等等；洪涝灾害图像由航拍方式进行获取，并且对图像的拍摄具有随机性。在时间上，在一天内不同时间段获取图像。空间上对农田、森林、山体、城市等不同环境场景进行洪涝灾害的图像捕获。

进一步地，所述步骤S1中文本图像对数据集的建立方式为：将采集的数据与场景描述合并构成文本，并对文本和图像进行预处理和数据增强，构建文本图像对数据集；

文本图像对数据集的建立过程包括如下步骤：

A1：构建文本：对于每张洪涝灾害图像，提供五句人类对图像的描述，并且文本要全面充分地描述出图像的颜色、形状等主要特征，其中文本中还要包括洪涝灾害生成因素的数据，将其与图像的特征描述相结合起来，构建为完整的文本描述；

A2：文本预处理：首先拼写检查纠正防止出现单词拼写错误的情况；然后将词型还原，将拼写不完整的单词还原成完整的单词；同时采用同义词替换、词向量替换、反向翻译等方法进行文本数据增强；

A3：图像预处理：采用中值滤波对图像进行去噪处理；其中实现数据增强的方式有：使用标准化对图像进行图像增强、使用几何变换(平移、翻转、旋转)对图像进行数据增强、使用随机调整亮度对图像进行增强、使用随机调整对比度对图像进行增强，以扩充数据集，获取样本的多样性与数据的多样性。

进一步地，所述步骤A3中的中值滤波的具体算法流程如下：

B1：将含有若干点的滑动窗口即滤波模板在图像中扫描移动，将模板中心对准图的某个像素点与其重合；此步骤的表达式为：

G(x，y)＝Med{f(x-k，y-l)，(k，l∈W)}

其中f(x，y)为原始图像，g(x，y)为处理后的图像。W为二维模板，为方形区域，可以在图像上滑动。

B2：逐个扫描图像中的像素点，读取模板中对应像素的像素值；

B3：将领域各元素的像素值按从小到大的顺序进行排序；

B4：将排序后的数据最中间的值赋给模板窗口中心位置的像素；如果滤波窗口内含有奇数个元素，中值取排序后数据的中间的值，若滤波窗口内含有偶数个元素，则将排序后的数据取最中间两个的取均值作为中值。

进一步地，所述步骤S3中构建好的生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失；

文本编码器采用双向LSTM网络结构；融合块由上采样块、2个仿射块和残差块组成；注意力机制细节优化块由注意力机制和图像特征转换器两部分组成；

生成器损失由对抗性损失和DAMSM损失构成，表达式为：

其中s是文本描述，是生成的图像，D()是鉴别器给出的输入图像与输入句子是否匹配的判定，λ_DA是DAMSM损失的权重；DAMSM损失是用来衡量文本与图像之间的语义一致性。

进一步地，所述融合块的组成和设置如下：

上采样块采用双线性插值法；

仿射块中，包含了以Affine层、ReLU层顺序的结构，一个仿射块有两层这样的结构；Affine层由两个MLP组成，并且句子向量输入每个仿射块中的MLP中；

残差块被设计为两个仿射块中间以及第二块仿射块后加入3x3卷积层。

进一步地，所述上采样块的双线性插值法的具体过程为：

C1：设f(x，y)代表像素点P(x，y)点的像素值；设Q11＝(x1，y1)、Q12＝(x1，y2)、Q21＝(x2，y1)、Q22＝(x2，y2)，这四个点为距离目标点(x，y)最近的四个点；

C2：计算x方向的线性插值，表达式为：

Where R1＝(x，y₁)

Where R1＝(x，y₂)

C3：计算y方向的线性插值，求出目标点P，表达式为：

C4：最终目标点像素值结果表达式为：

进一步地，所述仿射块中的MLP的具体运行方法为：

D1：两个MLP分别预测语言条件下通道缩放参数γ和移位参数θ，表达式为：

γ＝MLP₁(e)，θ＝MLP₁(e)

其中，e为句子向量；

D2：先使用参数γ对x进行通道方向标度运算，再使用移位参数θ进行通道方向的移位运算；表达式为：

Affine(x_i|e)＝γ_i*x_i+θ_i

其中x_i是视觉特征图第i通道信息，e是句子向量，γ_i和θ_i是视觉特征图第i通道的缩放参数和移位参数。

进一步地，所述注意力机制细节优化块的运行方法如下：

E1：将单词级特征和初始图像特征一起经过注意力机制筛选具有注意力机制的重要单词；表达式为：

α_i＝softmax((W_iU)R₀)

W＝{W_i|i＝0，1，2，...，l-1}

其中R₀表示初始图像特征，U是感知层，将单词嵌入W转换到视觉特征的底层公共语义空间中，W^g表示全局特征；

E2：将初始图像特征R₀和经过注意力机制输出的全局特征W^g经过图像特征转换器生成第二阶段图像特征；表达式为：

R^g＝F(R₀，W^g)

其中F是图像特征转换器，R^g为第二阶段图像特征；图像特征转换器由一个Concat块、两个残差块、一个上采样块组成；其中Concat块可以将两个张量按指定维度拼接在一起；残差块由两个3x3卷积层和BN层的组合构成。

进一步地，所述步骤S3中构建好的鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成；其中，

隐藏块包括下采样块和残差块；下采样块采用步长为2的卷积层；残差块的组成为4x4卷积层、ReLU层、3x3卷积层、ReLU层；

单向输出是将句子特征和图像特征Concat结合起来然后通过两个卷积层输出一个对抗性损失；

鉴别器损失使用了匹配感知梯度惩罚(MA-GP)损失相关的对抗性损失：

其中s是文本描述，是不匹配的文本描述，x是对应于s的真实图像，/>是生成的图像，D()是鉴别器给出的输入图像是否与输入句子匹配的判定，λ_MA和p是MA-GP的超参数。

进一步地，所述步骤S4中生成对抗网络模型的具体训练过程为：

F1：将文本描述输入文本编码器生成句子向量和单词特征；

F2：将正态分布采样的噪声向量输入全连接层重塑成需要的大小尺寸，然后与句子向量一起输入6个融合块生成初始图像特征；

F3：将单词特征和初始图像特征输入注意力机制细节优化块生成第二阶段图像特征；

F4：第二阶段图像特征经过3x3卷积后生成洪涝灾害图像；

F5：在鉴别器中，生成的图像经过卷积层和隐藏块生成图像特征并与句子向量连接经过单向输出计算对抗损失。

有益效果：本发明与现有技术相比，本发明模型将文本编码器作为生成器的部分之一，不固定参数，并使用真实数据图像对进行预训练，生成句子向量和单词特征，能更充分地利用文本信息生成图像；融合块中的仿射块加入ReLU层引入非线性变化，扩大了条件表示空间，更大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示，促进了视觉特征的多样性，即促进了模型生成图像的多样性。在融合块中，文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合；鉴别器中使用单向输出能够加速生成器收敛，并且促使生成器合成更真实更符合语义一致性的图像。该模型能够生成高质量的洪涝灾害图像，同时能够保证文本与生成图像之间的语义一致性，对于洪涝灾害的预测具有一定的参考价值。

附图说明

图1为本发明方法的流程示意图。

图2为本发明的模型结构示意图。

图3为融合块结构的示意图。

图4为Affine中的MLP仿射变换原理示意图。

图5为注意力机制细节优化块示意图。

图6为模型训练过程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于生成对抗网络的洪涝灾害场景生成方法，如图1所示，其包括如下步骤：

S1：采集洪涝灾害相关信息，建立文本图像对数据集：

洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像，其中，洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体，其中致灾因子是引起灾害的动力诱因，主要包括平均降雨量、最大雨量等等。孕灾环境是指发生洪涝灾害下的自然环境，包括河网等级和坡度数据，承灾体指标提供人口密度、耕地面积等等；洪涝灾害图像由航拍方式进行获取，并且对图像的拍摄具有随机性。在时间上，在一天内不同时间段获取图像。空间上对农田、森林、山体、城市等不同环境场景进行洪涝灾害的图像捕获。

文本图像对数据集的建立方式为：将采集的数据与场景描述合并构成文本，并对文本和图像进行预处理和数据增强，构建文本图像对数据集；

文本图像对数据集的建立过程包括如下步骤：

中值滤波的具体算法流程如下：

B1：将含有若干点的滑动窗口即滤波模板在图像中扫描移动，将模板中心对准图的某个像素点与其重合；

此步骤的表达式为：

G(x，y)＝Med{f(x-k，y-l)，(k，l∈W)}

B3：将领域各元素的像素值按从小到大的顺序进行排序；

S2：对文本图像对数据集进行预处理，将文本图像对数据集按照8：2的比例分为训练集和验证集；

S3：根据构建好的生成器和鉴别器形成生成对抗网络模型：

生成对抗网络模型的结构具体如图2所示：

1、生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失；

生成器损失由对抗性损失和DAMSM损失构成，表达式为：

如图3所示，融合块的组成和设置如下：

上采样块采用双线性插值法；

上采样块的双线性插值法的具体过程为：

C2：计算x方向的线性插值，表达式为：

Where R1＝(x，y₁)

Where R1＝(x，y₂)

C3：计算y方向的线性插值，求出目标点P，表达式为：

C4：最终目标点像素值结果表达式为：

如图4所示，仿射块中的MLP的具体运行方法为：

γ＝MLP₁(e)，θ＝MLP₁(e)

其中，e为句子向量；

Affine(x_i|e)＝γ_i*x_i+θ_i

如图5所示，注意力机制细节优化块的运行方法如下：

α_i＝softmax((W_iU)R₀)

W＝{W_i|i＝0，1，2，...，l-1}

R^g＝F(R₀，W^g)

2、鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成；其中，

如图6所示，生成对抗网络模型的具体训练过程为：

F1：将文本描述输入文本编码器生成句子向量和单词特征；

F4：第二阶段图像特征经过3x3卷积后生成洪涝灾害图像；

本发明模型将文本编码器作为生成器的部分之一，不固定参数，并使用真实数据图像对进行预训练，生成句子向量和单词特征，能更充分地利用文本信息生成图像；融合块中的仿射块加入ReLU层引入非线性变化，扩大了条件表示空间，更大的表示空间有助于生成器根据文本描述将不同的图像映射到不同的表示，促进了视觉特征的多样性，即促进了模型生成图像的多样性。在融合块中，文本信息能够在图像分辨率不同的条件下与图像特征进行充分融合；鉴别器中使用单向输出能够加速生成器收敛，并且促使生成器合成更真实更符合语义一致性的图像。该模型能够生成高质量的洪涝灾害图像，同时能够保证文本与生成图像之间的语义一致性，对于洪涝灾害的预测具有一定的参考价值。

Claims

1.一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，包括如下步骤：

S1：采集洪涝灾害相关信息，建立文本图像对数据集；

S3：根据构建好的生成器和鉴别器形成生成对抗网络模型；

S5：通过训练好的生成对抗网络模型，根据文本生成洪涝灾害图像；

所述步骤S1中洪涝灾害相关信息包括洪涝灾害成因因素数据和洪涝灾害图像，其中，洪涝灾害成因因素数据包括致灾因子、孕灾环境、承灾体；洪涝灾害图像由航拍方式进行获取，并且对图像的拍摄具有随机性；

所述步骤S3中构建好的生成器包含全连接层、文本编码器、6个融合块、注意力机制细节优化块、卷积层和生成器损失；

生成器损失由对抗性损失和DAMSM损失构成，表达式为：

其中s是文本描述，是生成的图像，D()是鉴别器给出的输入图像与输入句子是否匹配的判定，λ_DA是DAMSM损失的权重；DAMSM损失是用来衡量文本与图像之间的语义一致性；

所述融合块的组成和设置如下：

上采样块采用双线性插值法；

残差块被设计为两个仿射块中间以及第二块仿射块后加入3x3卷积层；

所述注意力机制细节优化块的运行方法如下：

α_i＝softmax((W_iU)R₀)

W＝{W_i|i＝0,1,2,...,l-1}

E2：将初始图像特征g₀和经过注意力机制输出的全局特征W^g经过图像特征转换器生成第二阶段图像特征；表达式为：

R^g＝F(R₀,W^g)

其中F是图像特征转换器，R^g为第二阶段图像特征；图像特征转换器由一个Concat块、两个残差块、一个上采样块组成；其中Concat块可以将两个张量按指定维度拼接在一起；残差块由两个3x3卷积层和BN层的组合构成；

所述步骤S3中构建好的鉴别器由一个3x3卷积层、6个隐藏块、单向输出构成；其中，

鉴别器损失使用了匹配感知梯度惩罚损失相关的对抗性损失：

2.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，所述步骤S1中文本图像对数据集的建立方式为：将采集的数据与场景描述合并构成文本，并对文本和图像进行预处理和数据增强，构建文本图像对数据集；

文本图像对数据集的建立过程包括如下步骤：

A1：构建文本：对于每张洪涝灾害图像，提供人类对图像的描述，并且文本要描述出图像的主要特征，其中文本中还要包括洪涝灾害生成因素的数据，将其与图像的特征描述相结合起来，构建为完整的文本描述；

A2：文本预处理：首先拼写检查纠正防止出现单词拼写错误的情况；然后将词型还原，将拼写不完整的单词还原成完整的单词；同时进行文本数据增强；

A3：图像预处理：采用中值滤波对图像进行去噪处理；其中实现数据增强的方式有：使用标准化对图像进行图像增强、使用几何变换对图像进行数据增强、使用随机调整亮度对图像进行增强、使用随机调整对比度对图像进行增强，以扩充数据集，获取样本的多样性与数据的多样性。

3.根据权利要求2所述的一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，所述步骤A3中的中值滤波的具体算法流程如下：

B3：将领域各元素的像素值按从小到大的顺序进行排序；

4.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，所述上采样块的双线性插值法的具体过程为：

C1：设f(x,y)代表像素点P(x,y)点的像素值；设Q11＝(x1,y1)、Q12＝(x1,y2)、Q21＝(x2,y1)、Q22＝(x2,y2)，这四个点为距离目标点(x,y)最近的四个点；

C2：计算x方向的线性插值，表达式为：

C3：计算y方向的线性插值，求出目标点P，表达式为：

C4：最终目标点像素值结果表达式为：

5.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，所述仿射块中的MLP的具体运行方法为：

γ＝MLP₁(e),θ＝MLP₁(e)

其中，e为句子向量；

Affine(x_i|e)＝γ_i*x_i+θ_i

6.根据权利要求1所述的一种基于生成对抗网络的洪涝灾害场景生成方法，其特征在于，所述步骤S4中生成对抗网络模型的具体训练过程为：

F1：将文本描述输入文本编码器生成句子向量和单词特征；

F4：第二阶段图像特征经过3x3卷积后生成洪涝灾害图像；