CN117077604B

CN117077604B - 一种基于强化学习的csrr滤波器设计方法及装置

Info

Publication number: CN117077604B
Application number: CN202311351375.8A
Authority: CN
Inventors: 叶雨农; 王皓岩; 刘杰; 李嵬; 李苗; 汪志强
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-02-27
Anticipated expiration: 2043-10-18
Also published as: CN117077604A

Abstract

本发明公开了一种基于强化学习的CSRR滤波器设计方法及装置，基于强化学习框架，结合强大的仿真软件CST，对CSRR滤波器的设计参数进行优化。本发明实施例提供的方法能够在短时间内获得优秀的设计方案，同时具有高效性和可扩展性。

Description

一种基于强化学习的CSRR滤波器设计方法及装置

技术领域

本发明属于滤波器技术领域，具体涉及一种基于强化学习的CSRR滤波器设计方法及装置。

背景技术

CSRR (Complementary Split Ring Resonator)被定义为连续的金属环阵列和串联的电容器矩阵，CSRR滤波器是基于电磁超材料(CSRR)理论设计出来的一种滤波器。相较于传统的微波滤波器，CSRR滤波器尺寸小，可以实现紧凑的电路布局，可以实现高阻带衰减和快速的群延迟特性，与响应时间短，可以满足快速响应和高精度的应用需求等优点。近年来，由于其良好的性能，在微波频段被广泛应用，尤其是在移动通信、卫星通信和雷达等领域。

CSRR滤波器的设计是射频电路和***领域的一个重要课题。在进行CSRR滤波设计时，可以通过改变金属环的尺寸，来调节电磁波的传播特性，从而满足不同的设计需求。然而，传统的CSRR滤波器设计方法往往难以在满足宽带需求的同时保持高选择性和低***损耗。带宽限制主要是由于CSRR与谐振器之间的强相互作用，这使得难以优化CSRR的尺寸和形状以适应宽带应用。

同时，传统的CSRR滤波器设计主要依赖于参数调节和优化，如CSRR结构的尺寸和连接方式等，而这些参数的调节往往需要大量的人工调整，耗时长，效率低，并且对于不同的滤波器结构，优化过程也不尽相同，造成参数调节和优化的难度。综上所述，传统的CSRR滤波器设计存在着带宽限制、参数调节难度及设计效率低下等问题，影响了其实际应用的开展。因此，有必要寻求新的解决方案来解决这些问题，提高CSRR滤波器的实用性和应用范围。

发明内容

本发明实施例中提供了一种基于强化学习的CSRR滤波器设计方法及装置，以解决现有CSRR滤波器设计存在着带宽限制、参数调节难度及设计效率低下等问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

本发明的一个方面提供一种基于强化学习的CSRR滤波器设计方法，包括：

获取CSRR滤波器当前的状态，以及所有预设的调整动作；

将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益；

根据所有调整动作对应的总体收益确定一个当前最优调整动作；

采用所述当前最优调整动作对CSRR滤波器的当前状态进行调整，得到调整后的状态；

将所述调整后的状态输入CST仿真平台获得仿真结果，所述仿真结果包含反射系数值和***损耗值；

基于预设的奖励算法计算仿真结果的奖励值；

将当前状态、调整后状态、调整动作和奖励值作为一组样本存储在经验池中，并利用DQN模型进行下一次调整；

在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态；

在DQN模型达到预设训练目标后，根据最后调整得到的状态确定CSRR滤波器最终的设计参数。

可选的，所述将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益，包括：

建立DQN模型中的目标网络和训练网络，所述目标网络和训练网络具有DQN网络结构且初始参数相同；

将当前状态输入至目标网络，获得所有调整动作对应的总体收益。

可选的，所述在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态，包括：

根据经验重放机制，在经验池中随机选取预设数量组样本，并作为训练数据；

基于训练数据对训练网络进行训练，更新训练网络的模型参数；

判断训练网络更新模型参数的次数是否达到预设更新次数，

如果是，将目标网络的模型参数更新为训练网络的模型参数，并重新统计训练网络更新模型参数的次数。

可选的，所述基于预设的奖励算法计算仿真结果的奖励值，包括：

判断仿真结果中的反射系数值是否小于或等于预设上限，

如果是，将预设的第一奖励值的数值增加1；

判断仿真结果中的***损耗值是否大于预设下限，

如果是，将预设的第二奖励值的数值增加1；

按照以下方式计算奖励值：

award1 =award1/ (l_max - l_min)

award2 =award2 /(l_max - l_min)

award = award1 + award2

其中，award为仿真结果的奖励值，award1为第一奖励值，初始值为0，award2为第二奖励值，初始值为0；

l_min = int((f_band_min-f_min)/(f_max-f_min)L)

l_max = int((f_band_max-f_min)/(f_max-f_min)L)

其中，f_band_min和f_band_max是频带的最小频率和最大频率，L是参数的频率数组长度，l_min和l_max是根据频率范围计算得到的频率数组中的索引范围，f_min和f_max分别为仿真频段的起始值和终止值。

可选的，在执行将所述调整后的状态输入CST仿真平台获得仿真结果的步骤之前，还包括：

判断调整后的状态是否属于预设的设计范围，

如果是，将调整后的状态输入CST仿真平台；

如果否，将调整后状态对应的奖励值设置为-1。

可选的，所述方法还包括：

判断当前状态对应的奖励值与调整后状态对应的奖励值是否相等；

如果是，获取当前状态对应的仿真结果和调整后状态对应的仿真结果；

按照以下方式分别计算两个仿真结果与预设理想曲线之间的loss值：

其中， />为理想曲线上第i个频率的值；

将loss值较小的仿真结果对应的调整动作，作为当前状态对应的调整动作，并重新调整CSRR滤波器的状态。

本发明的另一个方面提供一种基于强化学习的CSRR滤波器设计装置，包括：

获取模块，用于获取CSRR滤波器当前的状态，以及所有预设的调整动作；

总体收益模块，用于将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益；

调整动作确定模块，用于根据所有调整动作对应的总体收益确定一个当前最优调整动作；

调整模块，用于采用所述当前最优调整动作对CSRR滤波器的当前状态进行调整，得到调整后的状态；

仿真结果模块，用于将所述调整后的状态输入CST仿真平台获得仿真结果，所述仿真结果包含反射系数值和***损耗值；

奖励值计算模块，用于基于预设的奖励算法计算仿真结果的奖励值；

经验池模块，用于将当前状态、调整后状态、调整动作和奖励值作为一组样本存储在经验池中，并利用DQN模型进行下一次调整；

模型训练模块，用于在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态；

设计参数获取模块，用于在DQN模型达到预设训练目标后，根据最后调整得到的状态确定CSRR滤波器最终的设计参数。

本发明实施例提出一种基于强化学习的CSRR滤波器设计方法及装置，基于强化学习框架，结合强大的仿真软件CST ，对CSRR滤波器的设计参数进行优化。本发明实施例提供的方法能够在短时间内获得优秀的设计方案，同时具有高效性和可扩展性。

附图说明

图1为本发明实施例提供的一种谐振环CSRR的结构示意图；

图2为本发明实施例提供的一种微带线技术的应用示意图；

图3为本发明实施例提供的一种CSRR带通滤波器的结构示意图；

图4为本发明实施例提供的一种基于强化学习的CSRR滤波器设计方法的流程示意图；

图5为本发明实施例提供的一种实现图1中步骤S108的流程示意图；

图6为本发明实施例提供的一种基于强化学习的CSRR滤波器设计装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

本发明公开的实施例可以应用于任意类型的CSRR滤波器，为便于理解，在本发明实施例中将以SIW-CSRR带通滤波器为例，基于强化学习框架，进行滤波器参数的优化和设计。

以下为对SIW-CSRR带通滤波器的介绍：

Split-Ring Resonator (SRR)是一种微波器件，与传统谐振器不同的是，SRR的导体环断开了，被分成了两个环，形态像一个C，SRR的结构使其可以被看作是一个电容和一个电感并联的结构，电磁波穿过SRR时，导体环内的电流与导体外的电流之间会产生一个电磁场，该场会产生一种可以抵消负面电磁场的负抗，从而减轻电路中功耗，实现高通滤波和带阻滤波等功能。通过在金属平面刻蚀SSR结构形状，得到互补开口谐振环CSRR，其结构如图1所示。

在设计CSRR结构时，需要根据具体的应用需求，合理选择环间距、刻蚀线宽和外环刻蚀半径等参数，以达到最佳的性能。图1中的101代表CSRR结构的外环刻蚀半径，它影响了的尺寸和谐振器的电感值。较小的外环刻蚀半径可以导致更小的尺寸，但同时也可能导致较低的电感值和更差的性能。较大的外环刻蚀半径可以提高电感值，但同时也会增加小尺寸结构的制造难度。图1中的102代表CSRR结构的刻蚀线宽，较宽的刻蚀线宽可能导致较高的副瓣和更差的抑制效果，而较窄的刻蚀线宽可能会导致较大的传输损耗。图1中的103代表CSRR结构的环间距，它决定了滤波器的中心频率和抑制效果。更小的环间距离通常会导致更高的中心频率和更宽的抑制带宽，但也会增加制造难度，同时也会增加传输损耗。

Substrate Integrated Waveguide（SIW）是一种新型的微带线技术，在介质基板的不同层之间加入金属夹层，通过２列均匀排布的金属过孔来打通多层金属面和金属材料之间的介质，将电磁波限制在介质基片金属面以及均匀排布的２列金属过孔之间，从而达到与矩形波导类似的高通滤波传输效果，其结构如图2所示。图2中的201代表２列过孔的间距，202代表过孔直径，203单列的过孔间距。

将CSRR技术应用到SIW带通滤波器中，在SIW顶层金属上加载２个对称的并联互补开口谐振环，为带通滤波器提供了良好的带外抑制效果。本发明实施例中的CSRR带通滤波器采用在SIW高通滤波器上刻蚀２个开口相对的圆型CSRR，其平面物理结构如图3所示。其中，301为微带线，302为滤波器主体，303为共面波导结构。

图4为一种基于强化学习的CSRR滤波器设计方法的流程示意图，如图4所示，该方法包括以下步骤：

步骤S101：获取CSRR滤波器当前的状态，以及所有预设的调整动作。

在本发明公开的一个具体实施例中，CSRR滤波器的状态可以表达为St（g1t,g2t,r0t,r1t），其中，g1t表示在时间步t时，CSRR滤波器第一类状态（g1）的值，例如，第一类状态可以是CSRR谐振环的外环刻蚀半径、刻蚀线宽等，可为连续值、离散值或向量。

g2t表示在时间步t时，CSRR滤波器第二类状态（g2）的值，例如，CSRR谐振环的环间距、两个CSRR的圆心距离等。

在本发明公开的实施例中，以调整CSRR谐振环的设计参数为例，本发明同样也可以应用于CSRR滤波器中对性能影响较大的其他几何参数，例如，电容器的参数等。

r0t表示在时间步t时，即时奖励（r0）的值。即时奖励是CSRR滤波器设计参数当前获得的即时反馈。r0t可以是正、负或零。

r1t表示在时间步t时，下一个即时奖励（r1）的值。r1t与r0t类似，是在时间步t+1时获得的即时反馈。

在本发明公开实施例中，为CSRR预设初始的状态，时间步的时间间隔为可以为固定的预设值，例如，15秒，也可以采用其他方式设计相邻时间步之间的时间间隔。

在本发明公开的实施例中，预设的调整动作可以为增大谐振环CSRR和减小谐振环CSRR。

步骤S102：将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益。

在本发明公开的实施例中，以DQN模型作为强化学习模型。DQN模型结合了深度学习和Q-learning算法，擅长处理高维状态和动作空间，可以有效地利用历史样本，通过学习到的价值函数选择最优动作。

在本发明公开实施例中，DQN模型使用深度神经网络来逼近Q函数，模型输入的数据是状态，输出的数据是每个调整动作的总体收益Q值。

同时，为了提高学习过程的稳定性，在本发明公开实施例中，建立DQN模型中的目标网络和训练网络，目标网络和训练网络同样具有DQN网络结构且初始参数相同。训练网络，用于更新模型参数；目标网络，用于预测每一个调整动作的Q值。目标网络的参数不是每一步都更新，而是定期地从训练网络复制过来。

将当前状态输入至目标网络，即可获得所有调整动作对应的总体收益Q。

并且，在本发明公开实施例中，DQN引入了一个经验回放机制。智能体与环境互动时产生的经验（即状态、动作、奖励和下一个状态的四元组）被存储在一个经验池中。在训练过程中，从这个经验池中随机抽取样本进行学习。这种方法可以降低数据之间的时间相关性并提高学习的稳定性。

步骤S103：根据所有调整动作对应的总体收益确定一个当前最优调整动作。

在本发明公开的实施例中，基于ε-greedy原则，根据所有调整动作对应的总体收益确定一个当前最优调整动作。

ε-greedy（贪心策略）包含以下步骤：

1、初始化一个小于等于1的ε值，表示探索的概率。通常，ε的取值比较小，比如0.1或0.2。

2、在每个时间步中，智能体根据当前的状态选择一个动作。

3、以概率1-ε选择当前估计为最优的动作，即选择具有最高估计值的动作。这个估计值可以是根据之前的学习经验得到的Q值、价值函数或其他评估方法。

4、以概率ε选择一个随机动作，即从可选的动作中随机选择一个动作。

通过这种策略，智能体在一定程度上能够利用已经学到的知识来获得较好的行为策略，同时也保持一定的探索性，以便发现新的、未知的有价值的动作。ε-greedy策略能够平衡探索和利用的需求，提高强化学习的性能和效果。

步骤S104：采用当前最优调整动作对CSRR滤波器的当前状态进行调整，得到调整后的状态。

在获取当前最优调整动作之后，将该当前最优调整动作提供给环境，在本发明公开实施例中，环境指由python脚本控制的CSRR滤波器设计参数修改环境和CST仿真环境。环境根据当前最优调整动作修改CSRR滤波器的设计参数，并获得下一个时间步t+1阶段的状态St+1。

步骤S105：将调整后的状态输入CST仿真平台获得仿真结果。

在本发明公开的一个实施例中，执行步骤S105之前，还包括以下步骤：

为保证得到的CSRR滤波器设计参数满足实际生产的需求，预先设置一个设计范围，并判断调整后的状态是否属于预设的设计范围。

如果调整后状态中的设计参数属于预设的设计范围，则继续执行步骤S105。

当调整后状态中的设计参数不属于预设的设计范围时，将调整后状态对应的奖励值设置为-1。

在本发明实施例的应用场景中，涉及到了大规模参数优化和复杂模型的仿真，这些操作使用手动方式进行仿真是非常低效，为了快速地对参数进行优化、快速地尝试不同的设计方案、快速地比较各种仿真结果，本发明基于脚本环境调用仿真内核。以CST电磁仿真软件为例，CST电磁仿真软件是业界非常出色的建模和仿真工具之一，它使用的先进算法和高度优化的计算引擎，使得用户可以准确地分析和设计各种复杂的电磁器件，例如筛选器、馈线、天线、波导、阵列等等；除了强大的分析功能外，CST还提供了COM接口，允许用户通过Python脚本与CST仿真器进行交互，从而实现许多繁琐操作的自动化和定制化。本发明基于python脚本，利用COM接口完成如下操作：创建和修改CST仿真器中的模型、设置仿真器参数、启动、暂停、停止仿真器仿真、获取仿真结果数据等操作。

如果调整后状态中的设计参数属于预设的设计范围，则将调整后的状态输入CST仿真平台获得仿真结果，在本发明实施例中，也可采用其他电磁仿真平台获得仿真结果，其中，仿真结果为反射系数值和***损耗值，是两个值在不同频点瞬时的具体数值。在本发明公开的一个具体实施例中，有效仿真频段为0-70GHz。

步骤S106：基于预设的奖励算法计算仿真结果的奖励值。

在本发明公开的一个实施例中，可采用以下方式计算奖励值：

（1）判断仿真结果中的反射系数值是否小于或等于预设上限，

如果是，将预设的第一奖励值的数值增加1。

（2）判断仿真结果中的***损耗值是否大于预设下限，

如果是，将预设的第二奖励值的数值增加1。

（3）按照以下方式计算奖励值：

award1 = award1 /(l_max - l_min)

award2 =award2 /(l_max - l_min)

award = award1 + award2

l_min = int((f_band_min-f_min)/(f_max-f_min)L)

l_max = int((f_band_max-f_min)/(f_max-f_min)L)

第一奖励值反映回波损耗，如果反射系数值的增益（以dB为单位）小于等于-20，表示回波损耗符合要求，award1的值加1。第二奖励值反映***损耗，如果***损耗值的增益（以dB为单位）大于-1.5，表示***损耗符合要求，award2的值加1。分别将award1和award2的值除以频率范围内的索引数量（l_max - l_min），得到各自归一化的奖励值。最后将award1和award2相加得到仿真结果的奖励值。

步骤S107：将当前状态、调整后状态、调整动作和奖励值作为一组样本存储在经验池中，并利用DQN模型进行下一次调整。

将当前状态、调整后状态、调整动作和奖励值作为一组样本(St, at, rt, St+1)，添加至预设的经验池中，以便于为训练DQN模型提供训练数据。

并且，在将数据添加至经验池后，继续采用DQN模型进行下一次调整，获得CSRR滤波器在下一个时间步t+1阶段的状态。

步骤S108：在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态。

当经验池中样本的数量超过预设的一个数量阈值后，如图5所示，采用以下步骤对DQN模型进行训练并更新模型参数：

步骤S1081：根据经验重放机制，在经验池中随机选取预设数量组样本，并作为训练数据。

在本发明公开的一个实施例中，根据经验重放机制，在经验池中随机取样本作为训练数据，生成小批量的学习。采用该方式可降低样本之间的相关性，达到稳定训练过程的目的。

步骤S1082：基于训练数据对训练网络进行训练，更新训练网络的模型参数。

在本发明公开的一个实施例中，可采用基础的神经网络训练方式，当对训练网络进行大量的训练之后，其参数值向最佳参数值逼近。对训练网络进行训练采用的损失函数可以为任意一种适合的损失函数，例如，MSE等。

将经验池中随机抽取的训练数据[St,at,rt,St+1]输入DQN模型，其中，将当前状态输入训练网络，输出数据为执行调整动作at的Q值。同时，将下一个时间步t+1阶段的状态St+1输入目标网络，输出数据为各个调整动作下的Q值，选取其中最大的Q值与奖励值rt相加得到TD_target。计算二者（即执行调整动作at的Q值与TD_target）之间的损失，梯度下降，实时更新训练网络的模型参数。

步骤S1083：判断训练网络更新模型参数的次数是否达到预设更新次数。

记录训练网络更新模型参数的次数，并判断该更新次数是否达到预设次数，例如，5次。

如果训练网络更新模型参数的次数达到预设更新次数，则执行步骤S1084，如果训练网络更新模型参数的次数未达到预设更新次数，则继续对训练网络进行训练，更新其模型参数。

步骤S1084：将目标网络的模型参数更新为训练网络的模型参数，并重新统计训练网络更新模型参数的次数。

利用训练网络的模型参数替换目标网络的模型参数，并重新统计训练网络更新模型参数的次数，并在训练网络更新模型参数的次数达到预设更新次数后，再次更新目标网络的模型参数。

步骤S109：在DQN模型达到预设训练目标后，根据最后调整得到的状态确定CSRR滤波器最终的设计参数。

在本发明公开的一个实施例中，可以设置50个训练周期，每个训练周期包括300个Episode。每一个Episode都是智能体从某个初始状态开始，在环境中采取一系列的动作，并收到一系列的奖励值，直至达到终止状态，完成一个Episode，每个Episode是智能体与环境的一次完整交互过程。

一个Episode包含以下步骤：

1、初始化：智能体从一个初始状态开始。

2、交互：智能体在环境中采取动作，环境给出下一个状态和奖励。

3、学习：智能体根据收到的奖励和下一个状态更新其策略或值函数。

4、终止：如果达到终止状态或满足其他终止条件，Episode结束，在本发明公开的具体实施例中，终止条件为奖励值大于0.7。

5、重复：开始新的Episode，智能体再次从初始状态或新的状态开始，重复以上步骤。

在每个训练周期中，智能体与环境进行交互，收集一定数量的经验数据，即经验池中的样本。然后，智能体使用这些经验数据来更新深度神经网络的参数，以优化其行为策略。在经历完一整个训练周期的经验数据收集后，才进行网络的训练和参数更新。

每个训练周期的训练结果会作为下一个周期的起点，即后续周期是在前序周期的训练结果上继续训练，这样处理的两个主要原因为：

（1）神经网络的训练是一个迭代的过程，通过多次迭代可以逐步优化网络的参数，提高智能体的性能。

（2）在强化学习中，智能体的行为策略是基于当前的策略和价值估计，通过不断与环境交互和更新网络参数，智能体可以逐步改善其策略和价值估计的准确性。

分周期进行训练分的优点是可以逐步调整智能体的行为策略，避免一次性进行过多的训练导致过拟合的问题。通过逐步调整，可以更好地控制智能体的训练过程，提高其在环境中的表现和泛化能力。

随着训练次数的增加，智能体达到目标奖励值0.7所需的次数减少，并且趋于平稳。同时，随着训练次数的增加，智能体做出的决策获得的平均奖励值在经过激增后会逐渐平稳，表明经过训练后智能体做出的决策质量得到了明显提高。

在本发明公开的另一个实施例中，本发明公开的方法还包括以下步骤：

（1）判断当前状态对应的奖励值与调整后状态对应的奖励值是否相等。

即，判断St对应的奖励值与St+1对应的奖励值是否相等。

（2）如果二者对应的奖励值相等，获取当前状态对应的仿真结果和调整后状态对应的仿真结果。

（3）按照以下方式分别计算两个仿真结果与预设理想曲线之间的loss值：

其中，/>为理想曲线上第i个频率的值。

（4）将loss值较小的仿真结果对应的调整动作，作为当前状态对应的调整动作，并重新调整下一个时间步阶段的状态St+1。

在本发明公开的实施例中，可根据需求建立理想滤波器的曲线，并采用Matlab的平滑样条工具对该取消进行平滑处理，得到理想曲线。

图6为本发明实施例公开的一种基于强化学习的CSRR滤波器设计装置的结构示意图，如图6所示，该装置包括以下模块：

获取模块11，用于获取CSRR滤波器当前的状态，以及所有预设的调整动作；

总体收益模块12，用于将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益；

调整动作确定模块13，用于根据所有调整动作对应的总体收益确定一个当前最优调整动作；

调整模块14，用于采用当前最优调整动作对CSRR滤波器的当前状态进行调整，得到调整后的状态；

仿真结果模块15，用于将调整后的状态输入CST仿真平台获得仿真结果，仿真结果包含反射系数值和***损耗值；

奖励值计算模块16，用于基于预设的奖励算法计算仿真结果的奖励值；

经验池模块17，用于将当前状态、调整后状态、调整动作和奖励值作为一组样本存储在经验池中，并利用DQN模型进行下一次调整；

模型训练模块18，用于在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态；

设计参数获取模块19，用于在DQN模型达到预设训练目标后，根据最后调整得到的状态确定CSRR滤波器最终的设计参数。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于强化学习的CSRR滤波器设计方法，其特征在于，包括：

获取CSRR滤波器当前的状态，以及所有预设的调整动作；

将当前状态输入至预设的DQN模型，获得每个调整动作对应的总体收益；

基于ε-greedy原则，根据所有调整动作对应的总体收益确定一个当前最优调整动作，包括：

初始化一个小于或等于1的ε值；

以概率1-ε选择具有最高的总体收益的调整动作作为当前最优调整动作，以及，以概率ε随机选择一个调整动作作为当前最优调整动作；

基于预设的奖励算法计算仿真结果的奖励值；

2.根据权利要求1所述的方法，其特征在于，所述将当前状态输入至预设的DQN模型，获得所有调整动作对应的总体收益，包括：

3.根据权利要求2所述的方法，其特征在于，所述在经验池中随机选取预设数量组样本作为训练数据对DQN模型进行训练并更新模型参数，采用更新模型参数后的DQN模型继续调整CSRR滤波器的状态，包括：

判断训练网络更新模型参数的次数是否达到预设更新次数，

4.根据权利要求1所述的方法，其特征在于，所述基于预设的奖励算法计算仿真结果的奖励值，包括：

判断仿真结果中的反射系数值是否小于或等于预设上限，

如果是，将预设的第一奖励值的数值增加1；

判断仿真结果中的***损耗值是否大于预设下限，

如果是，将预设的第二奖励值的数值增加1；

按照以下方式计算奖励值：

award1=award1/ (l_max - l_min)

award2 =award2/ (l_max - l_min)

award = award1 + award2

l_min = int((f_band_min-f_min)/(f_max-f_min)L)

l_max = int((f_band_max-f_min)/(f_max-f_min)L)

5.根据权利要求1所述的方法，其特征在于，在执行将所述调整后的状态输入CST仿真平台获得仿真结果的步骤之前，还包括：

判断调整后的状态是否属于预设的设计范围，

如果是，将调整后的状态输入CST仿真平台；

如果否，将调整后状态对应的奖励值设置为-1。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，/>为理想曲线上第i个频率的值；

7.一种基于强化学习的CSRR滤波器设计装置，其特征在于，包括：

总体收益模块，用于将当前状态输入至预设的DQN模型，获得每个调整动作对应的总体收益；

调整动作确定模块，用于基于ε-greedy原则，根据所有调整动作对应的总体收益确定一个当前最优调整动作，包括：

初始化一个小于或等于1的ε值；