CN116306268A - 基于联邦强化学习的盾构掘进仿真模型参数辨识方法*** - Google Patents

基于联邦强化学习的盾构掘进仿真模型参数辨识方法*** Download PDF

Info

Publication number
CN116306268A
CN116306268A CN202310188885.1A CN202310188885A CN116306268A CN 116306268 A CN116306268 A CN 116306268A CN 202310188885 A CN202310188885 A CN 202310188885A CN 116306268 A CN116306268 A CN 116306268A
Authority
CN
China
Prior art keywords
model
identified
parameter
parameters
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310188885.1A
Other languages
English (en)
Inventor
周诚
李雄彬
范斌
游正军
彭瑜
胡占东
高玉月
陈睿
覃文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310188885.1A priority Critical patent/CN116306268A/zh
Publication of CN116306268A publication Critical patent/CN116306268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于盾构仿真建模领域,涉及一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法。该方法包括:各客户端依据本地的原始数据建立参数化的盾构掘进仿真模型;中心协调器下放强化学习模型至各客户端进行盾构掘进仿真模型参数辨识的强化学习训练;客户端将强化学习训练过程中得到的相关数据进行同态加密后上传至中心协调器;中心协调器选择性地聚合具有更大收敛潜力的客户端模型参数并构建新的全局梯度信息,然后返回最新的模型数据至各客户端;各客户端更新本地模型然后进行强化学习训练得到待定的参数值并进行仿真模拟和迭代训练直至误差在可接受的范围内。本发明对辅助盾构机安全且高效地进行掘进具有重要的作用。

Description

基于联邦强化学习的盾构掘进仿真模型参数辨识方法***
技术领域
本发明属于盾构建模仿真领域,更具体地,涉及一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法及***。
背景技术
随着地下空间技术的发展,地铁的建设在各地得到了广泛的应用。盾构机是隧道挖掘的关键设备,其在掘进过程中所用的各设备参数及运行数据的种类越来越多,数据量也不断增大。在进行开挖的过程中,通常使用数值模拟的方法对盾构机掘进进行仿真模拟。而搭建仿真模型的过程只是确定了模型的基本形式,为了能够提高模型的准确性和可靠性,就必须控制模型参数的精确性。
然而由于仿真模型所需的一些参数没有统一的标准,多数靠工程师和施工人员的工程经验进行取值,且并非所有参数都有实测数据,同时各地区所监测的数据受测试方法、环境条件、运行情况等因素影响而存在偏差,难以确定影响仿真模型的重要参数。由于仿真计算过程为非线性方程的动力求解过程,在建模和分析过程中,所涉及到的参数量巨大,难以准确确定影响仿真模型的重要参数。因此需要一种盾构仿真模型参数辨识的方法,用于辨识和校核仿真所需参数,提高仿真的准确性,对实现盾构机安全高效地进行掘进有重要的作用。同时,在实际施工过程中,如果只是单一项目的数据,由于训练数据的样本少,训练出的模型往往无法达到很高的预测精度,因此可以结合其他地区的数据进行联合训练。然而由于受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,各公司不会将这些数据对外开放,多个数据来源方无法直接交换数据,这样就会形成“数据孤岛”的现象。
因此,需要一种既能准确辨识盾构仿真模型参数的方法,又能够保护参与学习训练各地的一些敏感的数据,防止恶意窃取数据信息。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其目的在于,解决现有盾构仿真模型参数辨识的方法由于区域状况不同而难以准确确定影响仿真模型的重要参数的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,包括:
S1.各客户端根据本地的工况、地质条件、盾构参数以及原始的监测数据,分别初步拟定待辨识的数值模型中的待定参数值,赋予其初始值,建立参数化的盾构掘进仿真模型,并对模型待辨识参数进行灵敏度分析;
S2.中心协调器下放强化学习模型至各客户端,各客户端分别建立本地决策模型,并根据各客户端收集到的本地区盾构掘进过程的原始数据和仿真模拟结果建立环境模型,用于模拟当前的状态St
S3.各客户端独立根据当前的状态St确定私有策略,同时根据私有策略选择相应的动作获得下一个状态St+1,并根据目标函数对St+1进行评估,各客户端在状态-动作-奖励-状态的循环中训练各自的模型,同时将强化学习训练过程中得到的模型梯度信息、训练数据数目及其评价结果进行同态加密后上传至中心协调器;
S4.中心协调器对各客户端上传的模型梯度信息、训练数据数目及其评价结果进行解密后,选择性地聚合具有更大收敛潜力的客户端模型参数,构建新的全局梯度信息并获得新的强化学习模型数据;
S5.中心协调器返回最新的强化学习模型数据至各客户端,各客户端通过融合中心协调器下发的最新的强化学习模型数据更新本地的强化学习模型,根据最新的强化学习模型进行强化学习训练得到待定的参数值,之后进行仿真模拟,并将本地监测数据与仿真结果进行比较同时分析两者之间的误差,重复步骤S3-S5直至误差在可接受的范围内时,所辨识得到的参数值即为模型待辨识参数的最终值。
优选地,所述盾构掘进仿真模型由数值模拟软件建立,具体地,先根据客户端现有的原始数据建立参数化基础模型,包括尺寸、材料特性、接触和边界条件,再确定其他缺少或在建立仿真模型时依据经验取值的参数值;
其他缺少或在建立仿真模型时依据经验取值的参数值的确定方法为:首先根据工程概况和工程经验确定N个待定参数各自的取值区间范围,从中随机选取N个待定参数的具体数值作为建立盾构掘进仿真模型所需的输入,设定N个待辨识参数Am的初始值,m=1~N,将Am的初始值输入盾构掘进仿真模型中进行计算求解得到初始仿真模拟结果;
所述原始的监测数据包括盾构掘进过程中盾构机的推力、扭矩,地表沉降和土体扰动所对应的具体数据值、监测点位置以及时间标签。
优选地,步骤S1中所述的对模型待辨识参数进行灵敏度分析的方法包括:结合工程经验和sobol方法进行模型待辨识参数灵敏度分析,采样的方法为蒙特卡洛采样,设置的采样样本数目为C,得到初始样本矩阵X、Y和构造矩阵XYm,m=1~N,将X、Y、XYm作为盾构掘进仿真模型的输入值,得到仿真结果向量f(X)、f(Y)和f(XYm),并根据仿真结果向量和下式求出每个待辨识参数的影响系数,每个待辨识参数的影响系数STm的计算方法为:
Figure BDA0004104751750000031
其中,Z为包括矩阵X和矩阵Y的一个新的构造矩阵,Var(Z)表示盾构掘进仿真模型输出结果的方差,待辨识参数影响系数越大,对模型的影响越大,C表示设置的采样样本的总数目,m表示第m个待辨识的参数,j表示第j个采样样本。
优选地,所述的中心协调器负责与客户端建立加密通信,并实现共享模型的聚合;多个并行客户端由异构设备组成,并在地理上独立分布,互不影响。
优选地,所述环境模型由仿真模拟数据结果与原始监测数据建立,并设目标函数,所述目标函数为:
Figure BDA0004104751750000041
其中,G为当前待辨识参数值下的目标函数,Zsim为所需观测的某一指标的模型仿真值,Zrea为所需观测的本地监测数据中的某一指标的实测值;下标1、2、3…表示本地监测数据中的监测指标总数;
根据所述的目标函数G构建奖励函数r:
当目标函数G’>G时,r=r+1,
当目标函数G’<G时,r=r,
其中G’为上一步迭代时待辨识参数值下模型的目标函数,G为当前迭代步骤中待辨识参数值下的目标函数;
所设置的奖励函数r的初始值为0,训练目的是让奖励函数最大化;将在待辨识的参数取值区间范围内随机选取一个数值作为强化学习模型的一个动作,当r=r+1时,决策模型会根据当前的待辨识的参数值的波动范围ΔAm (STm)对所有的待辨识参数进行改变以确定下一次待辨识参数的数值,或者,随机变化某一待辨识参数值而固定其他待辨识参数值;当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此基础上再重新改变待辨识参数值,直到r=r+1;当r=R时,模型停止训练,R为预设阈值;
所述的当前的待辨识参数值的波动范围ΔAm (STm)具体为,根据各待辨识参数的影响系数,设置N个待辨识参数的变化值ΔAm (STm),m=1~N,其中STm是第m个待辨识参数的影响系数,下一步的参数搜索范围会根据影响系数的大小来确定,待辨识参数影响系数越大,之后所设置的参数搜索范围越精细,即ΔAm (STm)的取值越小;
之后,根据奖励函数r进行待辨识参数的改变,具体为:
当奖励函数r=r+1时,选取N个待辨识的仿真模型参数值为Am (STm)+ΔAm (STm),或者,随机变化某一待辨识参数值而固定其他待辨识参数值;
当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,再在此基础上重新改变待辨识参数值,直到r=r+1;
然后将N个待辨识的仿真模型参数值输入到仿真模型中得到新的仿真结果,更新到新的状态St+1并给出奖励r;
以新的状态St+1作为输入,采用策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作。
优选地,所述同态加密的方法为中心协调器建立密钥对,客户端持公钥,中心协调器持私钥,客户端对获取的模型梯度信息、训练数据数目及其评价结果利用公钥进行加密,中心协调器采用私钥对各所述的模型梯度信息、训练数据数目及其评价结果进行解密。
优选地,步骤S4中,所述选择性地聚合具有更大收敛潜力的客户端模型参数的方法为:中心协调器根据所述的模型梯度信息、训练数据数目及其评价结果对各客户端数据进行筛选,在第一轮迭代时,剔除评价结果最差的一组模型梯度信息,使用其他组的模型梯度信息构建新的全局梯度信息以获得新的模型数据;同时存储评价结果较高的模型梯度信息,在之后的迭代训练中,聚合之前迭代所存储的评价结果较高的模型梯度信息,从而提高全局模型参数的收敛性和准确性。
按照本发明的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如前任一项所述的基于联邦强化学习的盾构掘进仿真模型参数辨识方法。
按照本发明的另一方面,提供了一种基于联邦强化学习的盾构掘进仿真模型参数辨识***,包括如前所述的计算机可读存储介质以及处理器,处理器用于调用和处理计算机可读存储介质中存储的计算机程序。
总体而言,本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)在盾构掘进目标任务相似的情况下,多个客户端共享从不同环境中获得的盾构掘进仿真模型训练经验,提高了模型的训练速度,加快学习过程。同时由于在对中心协调器的聚合模型进行训练的过程中可以利用到各地区对应客户的的数据,从而能够拥有足够的数据样本和类型对聚合模型进行训练,提高模型面对不同环境下的盾构掘进任务时的可靠性。
(2)不同地区客户端的设备可能具有不同的计算和通信能力,一些设备可能不能满足训练的基本要求,但需要策略来指导行动。本发明提供的策略能够使所有客户端都能平等地获得目标任务的共享模型,缓解了设备异构的问题。
(3)在不同地区、不同工程中的本地数据不会参与学习,只是中间参数参与模型训练,而无需传输其原始数据,这样不仅有利于仿真模型进行更新,降低时间成本,同时也保护了本地一些敏感的数据,保障了模型参数数据在传递过程中的安全性,防止恶意窃取数据信息。
附图说明
图1是本发明提供的基于联邦强化学习的盾构掘进仿真模型参数辨识方法流程图;
图2是本发明应用的一个实施实例的交互流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本实施例的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,请参阅图1所示,图1为本发明实施例提供的基于联邦强化学习的盾构掘进仿真模型参数辨识方法的流程示意图,该方法包括五个步骤:
S1.各客户端根据本地的工况、地质条件、盾构参数以及原始的监测数据,分别初步拟定待辨识的数值模型中的待定参数值,赋予其初始值,建立参数化的盾构掘进仿真模型,并对模型待辨识参数进行灵敏度分析;
S2.中心协调器下放强化学习模型至各客户端,各客户端分别建立本地决策模型,并根据各客户端收集到的本地区盾构掘进过程的原始数据和仿真模拟结果建立环境模型,用于模拟当前的状态St
S3.各客户端独立根据当前的状态St确定私有策略,同时根据私有策略选择相应的动作获得下一个状态St+1,并根据目标函数对St+1进行评估,各客户端在状态-动作-奖励-状态的循环中训练各自的模型,同时将强化学习训练过程中得到的模型梯度信息、训练数据数目及其评价结果进行同态加密后上传至中心协调器;
S4.中心协调器对各客户端上传的模型梯度信息、训练数据数目及其评价结果进行解密后,选择性地聚合具有更大收敛潜力的客户端模型参数,构建新的全局梯度信息并获得新的强化学习模型数据;
S5.中心协调器返回最新的强化学习模型数据至各客户端,各客户端通过融合中心协调器下发的最新的强化学习模型数据更新本地的强化学习模型,根据最新的强化学习模型进行强化学习训练得到待定的参数值,之后进行仿真模拟,并将本地监测数据与仿真结果进行比较同时分析两者之间的误差,重复步骤S3-S5直至误差在可接受的范围内时,所辨识得到的参数值即为模型待辨识参数的最终值。
优选地,所述盾构掘进仿真模型由数值模拟软件建立,具体地,先根据客户端现有的原始数据建立参数化基础模型,包括尺寸、材料特性、接触和边界条件,再确定其他缺少或在建立仿真模型时依据经验取值的参数值;
其他缺少或在建立仿真模型时依据经验取值的参数值的确定方法为:首先根据工程概况和工程经验确定N个待定参数各自的取值区间范围,从中随机选取N个待定参数的具体数值作为建立盾构掘进仿真模型所需的输入,设定N个待辨识参数Am的初始值,m=1~N,将Am的初始值输入盾构掘进仿真模型中进行计算求解得到初始仿真模拟结果;
所述原始的监测数据包括盾构掘进过程中盾构机的推力、扭矩,地表沉降和土体扰动所对应的具体数据值、监测点位置以及时间标签。
优选地,步骤S1中所述的对模型待辨识参数进行灵敏度分析的方法包括:结合工程经验和sobol方法进行模型待辨识参数灵敏度分析,采样的方法为蒙特卡洛采样,设置的采样样本数目为C,得到初始样本矩阵X、Y和构造矩阵XYm,m=1~N,将X、Y、XYm作为盾构掘进仿真模型的输入值,得到仿真结果向量f(X)、f(Y)和f(XYm),并根据仿真结果向量和下式求出每个待辨识参数的影响系数,每个待辨识参数的影响系数STm的计算方法为:
Figure BDA0004104751750000081
其中,Z为包括矩阵X和矩阵Y的一个新的构造矩阵,Var(Z)表示盾构掘进仿真模型输出结果的方差,待辨识参数影响系数越大,对模型的影响越大,C表示设置的采样样本的总数目,m表示第m个待辨识的参数,j表示第j个采样样本。
优选地,所述的中心协调器负责与客户端建立加密通信,并实现共享模型的聚合;多个并行客户端由异构设备组成,并在地理上独立分布,互不影响。
优选地,所述环境模型由仿真模拟数据结果与原始监测数据建立,并设目标函数,所述目标函数为:
Figure BDA0004104751750000091
其中,G为当前待辨识参数值下的目标函数,Zsim为所需观测的某一指标的模型仿真值,Zrea为所需观测的本地监测数据中的某一指标的实测值;下标1、2、3…表示本地监测数据中的监测指标总数;
根据所述的目标函数G构建奖励函数r:
当目标函数G’>G时,r=r+1,
当目标函数G’<G时,r=r,
其中G’为上一步迭代时待辨识参数值下模型的目标函数,G为当前迭代步骤中待辨识参数值下的目标函数;
所设置的奖励函数r的初始值为0,训练目的是让奖励函数最大化;将在待辨识的参数取值区间范围内随机选取一个数值作为强化学习模型的一个动作,当r=r+1时,决策模型会根据当前的待辨识的参数值的波动范围ΔAm (STm)对所有的待辨识参数进行改变以确定下一次待辨识参数的数值,或者,随机变化某一待辨识参数值而固定其他待辨识参数值(例如:变化待辨识参数A1的值,固定其他待辨识参数A2,……,AN);当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此基础上再重新改变待辨识参数值,直到r=r+1;当r=R时,模型停止训练,R为预设阈值;
所述的当前的待辨识参数值的波动范围ΔAm (STm)具体为,根据各待辨识参数的影响系数,设置N个待辨识参数的变化值ΔAm (STm),m=1~N,其中STm是第m个待辨识参数的影响系数,下一步的参数搜索范围会根据影响系数的大小来确定,待辨识参数影响系数越大,之后所设置的参数搜索范围越精细,即ΔAm (STm)的取值越小;
之后,根据奖励函数r进行待辨识参数的改变,具体为:
当奖励函数r=r+1时,选取N个待辨识的仿真模型参数值为Am (STm)+ΔAm (STm),或者,随机变化某一待辨识参数值而固定其他待辨识参数值;
当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,再在此基础上重新改变待辨识参数值,直到r=r+1;
然后将N个待辨识的仿真模型参数值输入到仿真模型中得到新的仿真结果,更新到新的状态St+1并给出奖励r;
以新的状态St+1作为输入,采用策略网络π计算每个动作的概率分布(即r=r+1时,根据当前的待辨识的参数值的波动范围ΔAm (STm)对所有的待辨识参数进行改变,确定下一次待辨识参数的数值或会随机变化某一待辨识参数值,固定其他待辨识参数值两种动作的概率),然后根据概率分布随机抽样得到新的动作。
优选地,所述同态加密的方法为中心协调器建立密钥对,客户端持公钥,中心协调器持私钥,客户端对获取的模型梯度信息、训练数据数目及其评价结果利用公钥进行加密,中心协调器采用私钥对各所述的模型梯度信息、训练数据数目及其评价结果进行解密。
优选地,步骤S4中,所述选择性地聚合具有更大收敛潜力的客户端模型参数的方法为:中心协调器根据所述的模型梯度信息、训练数据数目及其评价结果对各客户端数据进行筛选,在第一轮迭代时,剔除评价结果最差的一组模型梯度信息,使用其他组的模型梯度信息构建新的全局梯度信息以获得新的模型数据;同时存储评价结果较高的一组或者多组模型梯度信息,在之后的迭代训练中,聚合之前迭代所存储的评价结果较高的模型梯度信息,从而提高全局模型参数的收敛性和准确性。
优选地,所述客户端具有相同的强化学习模型,每个客户端可以在其环境内,独立观察各自的环境;在环境i的代理与在其他环境的代理均具有类似的模型,包括奖励函数,环境i独立于其他环境,不依赖于其他环境的状态和动作;每个代理与它自己的环境相互作用,学习最优策略。
下面,以弹性模量E和泊松比μ的参数辨识为例对本发明的方法进行进一步的说明:
S1,各客户端根据本地的工况、地质条件、盾构参数以及原始的监测数据,同时初步拟定数值模型中的待辨识参数并确定其参数范围,在本实例中,需要辨识的参数值为土体的弹性模量E和泊松比μ,然后对土体的弹性模量E和泊松比μ两个待辨识参数在拟确定的参数范围内选取一个值作为仿真模型的初始值,并利用数值建模软件建立参数化的盾构掘进仿真模型,同时对模型待辨识参数进行灵敏度分析;
具体为,盾构掘进仿真模型由数值软件建立,其根据客户端现有的一些原始数据建立参数化基础模型,包括尺寸、材料特性、接触和边界条件,其他一些缺少或在建立仿真模型时依据经验取值的参数值的确定方法为,如图2所示,各客户端从对应的地区收集相关的原始数据,首先根据工程概况确定土体的弹性模量E和泊松比μ各自的取值区间范围,并从中随机选取弹性模量E和泊松比μ的一个具体数值作为初始值,将弹性模量E和泊松比μ的初始值输入盾构掘进仿真模型中进行计算求解得到初始仿真模拟结果;所述原始的监测数据包括盾构掘进过程中盾构机的推力、扭矩以及地表沉降和土体扰动所对应的具体数据值、监测点位置以及时间标签;
模型待辨识参数灵敏度分析方法包括:结合工程经验和sobol方法进行模型待辨识参数灵敏度分析,采样的方法为蒙特卡洛采样,得到初始样本矩阵A、B和构造矩阵ABm(m=1,2),并将其作为盾构掘进仿真模型的输入值,得到仿真结果向量f(A)、f(B)和f(XYm)。并根据仿真结果向量和下式求出每个待辨识参数的影响系数,每个待辨识参数的影响系数的计算方法为:
Figure BDA0004104751750000111
其中,Z为包括矩阵X和矩阵Y的一个新的构造矩阵,Var(Z)表示盾构掘进仿真模型输出结果的方差,待辨识参数影响系数越大,对模型的影响越大,C表示设置的采样样本的总数目,m表示第m个待辨识的参数,j表示第j个采样样本;
S2,中心协调器下放强化学习模型至各客户端,所述强化学习模型中的各代理建立本地决策模型,并根据各客户端收集到的本地区盾构掘进过程的原始数据和仿真模拟结果建立环境模型,用于模拟当前的状态St;
S3,各代理可独立观察其环境的状态,根据当前的状态确定私有策略,同时根据策略选择相应的动作,之后被下一个状态St+1根据目标函数进行评估,所有的代理在状态-动作-奖励-状态的循环中训练各自的模型,同时将强化学习训练过程中得到模型梯度信息、训练数据数目及其评价结果进行同态加密后上传至中心协调器;
环境模型由仿真模拟数据结果与原始监测数据建立,并设目标函数,所述目标函数为:
Figure BDA0004104751750000121
其中,Gc为当前待辨识参数值下的目标函数,Zsim为所需观测的某一指标的模型仿真值,Zrea为所需观测的本地监测数据中的某一指标的实测值;下标1、2、3…表示本地监测数据中的监测指标总数,在本实例中,监测指标包括地表沉降、土层水平位移、地层扰动情况。
根据所述的目标函数G构建奖励函数r:当目标函数G’>G时,r=r+1,当目标函数G’<G时,r=r,其中G’为前一步待辨识参数值下模型的目标函数,G为当前步骤下待辨识参数值下的目标函数;所设置的奖励函数r的初始值为0,训练模型的目的就是让奖励函数最大化;将在待辨识的参数可能取值区间范围内随机选取一个数值作为强化学习模型的一个动作,当r=r+1时,决策模型会根据当前的待辨识的参数值的波动范围ΔE(ST1)和Δμ(ST2)对所有的待辨识参数进行改变,确定下一次待辨识参数的数值或会随机变化某一待辨识参数值,固定其他待辨识参数值;当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此之上重新改变待辨识参数值,直到r=r+1;所述奖励函数r可设置一个阈值R,当r=R时,模型停止训练;
所述的当前的待辨识参数值的波动范围ΔE(ST1)和Δμ(ST2)具体为,根据各待辨识参数的影响系数,设置土体的弹性模量E和泊松比μ的变化值ΔE(ST1)和Δμ(ST2),其中STm是得到的待辨识参数的影响系数,下一步的参数搜索范围会根据影响系数的大小来确定,待辨识参数影响系数越大,之后所设置的参数搜索范围越精细,即ΔE(ST1)或Δμ(ST2)的取值越小,令E=E+ΔE(ST1),μ=μ+Δμ(ST2),然后将变化后的土体的弹性模量E+ΔE(ST1)和泊松比μ+Δμ(ST2)输入到仿真模型中得到新的仿真结果,更新到新的状态St+1并给出奖励r;
之后根据奖励函数进行待辨识参数的改变,具体为,当奖励函数r=r+1时,选取土体的弹性模量E为E=E+ΔE(ST1),泊松比μ参数值为μ=μ+Δμ(ST2)或随机变化某一待辨识参数值,固定其他待辨识参数值(例如:变化土体的弹性模量E的值,固定泊松比μ),当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此基础上重新改变待辨识参数值,直到r=r+1,例如:上一步土体的弹性模量为E’,泊松比为μ’,下一步经过变化后土体的弹性模量为E”,泊松比为μ”,计算奖励函数得到r=r,则在下一步动作为土体的弹性模量为E’,泊松比为μ’,重新改变参数值再次代入模型中计算;
以新的状态St+1作为输入,采用策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作;
各客户端具有相同的强化学习模型,每个客户端可以在其环境内,独立观察各自的环境;在环境i的代理与在其他环境的代理均具有类似的模型,包括奖励函数,环境i独立于其他环境,不依赖于其他环境的状态和动作;每个代理与它自己的环境相互作用,学习最优策略;
中心协调器负责与客户端建立加密通信,并实现共享模型的聚合。多个并行客户端可以由异构设备(例如,物联网设备、智能手机和计算机等)组成,并在地理上独立分布,互不影响,同时对代理的数量没有具体要求,各客户端可以自由选择加入或离开;
各客户端和中心协调器之间建立加密传输,使用同态加密方法进行。中心协调器建立密钥对,客户端持公钥,中心协调器持私钥,客户端对获取的模型梯度信息、训练数据数目及其评价结果利用公钥进行加密,中心协调器采用私钥对各所述的模型梯度信息、训练数据数目及其评价结果进行解密;
S4,中心协调器依据所建立全局模型,根据各客户端上传的模型梯度信息、训练数据数目及其评价结果进行解密后,选择性地聚合具有更大收敛潜力的客户端模型参数,并构建新的全局梯度信息并获得新的模型数据;
中心协调器选择性地聚合具有更大收敛潜力的客户端模型参数,其根据所述的模型梯度信息、训练数据数目及其评价结果对各客户端数据进行筛选,在第一轮迭代时,剔除评价结果最差的一组模型梯度信息,使用其他组梯度构建新的全局梯度信息获得新的模型数据;同时存储评价结果较高的一组或多组模型梯度信息,在之后的迭代训练中,聚合在前面迭代所存储的模型梯度信息,提高全局模型参数的收敛性和准确性;
S5,中心协调器返回最新的模型数据至各客户端,各客户端通过融合全局模型数据更新本地模型,根据最新的模型进行强化学习训练得到待定的参数值,之后进行仿真模拟,并将本地监测数据与仿真结果进行比较同时分析两者之间的误差,重复步骤3—5,直至误差在可接受的范围内。
至此,各客户端能够建立符合实际工况的仿真模型,能够指导安全施工和通过仿真模型进行实时预测。
在一些其他实例中,待辨识的仿真模型参数数量可以有多个。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,包括:
S1.各客户端根据本地的工况、地质条件、盾构参数以及原始的监测数据,分别初步拟定待辨识的数值模型中的待定参数值,赋予其初始值,建立参数化的盾构掘进仿真模型,并对模型待辨识参数进行灵敏度分析;
S2.中心协调器下放强化学习模型至各客户端,各客户端分别建立本地决策模型,并根据各客户端收集到的本地区盾构掘进过程的原始数据和仿真模拟结果建立环境模型,用于模拟当前的状态St
S3.各客户端独立根据当前的状态St确定私有策略,同时根据私有策略选择相应的动作获得下一个状态St+1,并根据目标函数对St+1进行评估,各客户端在状态-动作-奖励-状态的循环中训练各自的模型,同时将强化学习训练过程中得到的模型梯度信息、训练数据数目及其评价结果进行同态加密后上传至中心协调器;
S4.中心协调器对各客户端上传的模型梯度信息、训练数据数目及其评价结果进行解密后,选择性地聚合具有更大收敛潜力的客户端模型参数,构建新的全局梯度信息并获得新的强化学习模型数据;
S5.中心协调器返回最新的强化学习模型数据至各客户端,各客户端通过融合中心协调器下发的最新的强化学习模型数据更新本地的强化学习模型,根据最新的强化学习模型进行强化学习训练得到待定的参数值,之后进行仿真模拟,并将本地监测数据与仿真结果进行比较同时分析两者之间的误差,重复步骤S3-S5直至误差在可接受的范围内时,所辨识得到的参数值即为模型待辨识参数的最终值。
2.根据权利要求1所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,所述盾构掘进仿真模型由数值模拟软件建立,具体地,先根据客户端现有的原始数据建立参数化基础模型,包括尺寸、材料特性、接触和边界条件,再确定其他缺少或在建立仿真模型时依据经验取值的参数值;
其他缺少或在建立仿真模型时依据经验取值的参数值的确定方法为:首先根据工程概况和工程经验确定N个待定参数各自的取值区间范围,从中随机选取N个待定参数的具体数值作为建立盾构掘进仿真模型所需的输入,设定N个待辨识参数Am的初始值,m=1~N,将Am的初始值输入盾构掘进仿真模型中进行计算求解得到初始仿真模拟结果;
所述原始的监测数据包括盾构掘进过程中盾构机的推力、扭矩,地表沉降和土体扰动所对应的具体数据值、监测点位置以及时间标签。
3.根据权利要求2所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,步骤S1中所述的对模型待辨识参数进行灵敏度分析的方法包括:结合工程经验和sobol方法进行模型待辨识参数灵敏度分析,采样的方法为蒙特卡洛采样,设置的采样样本数目为C,得到初始样本矩阵X、Y和构造矩阵XYm,m=1~N,将X、Y、XYm作为盾构掘进仿真模型的输入值,得到仿真结果向量f(X)、f(Y)和f(XYm),并根据仿真结果向量和下式求出每个待辨识参数的影响系数,每个待辨识参数的影响系数STm的计算方法为:
Figure FDA0004104751740000021
其中,Z为包括矩阵X和矩阵Y的一个新的构造矩阵,Var(Z)表示盾构掘进仿真模型输出结果的方差,待辨识参数影响系数越大,对模型的影响越大,C表示设置的采样样本的总数目,m表示第m个待辨识的参数,j表示第j个采样样本。
4.根据权利要求1所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,所述的中心协调器负责与客户端建立加密通信,并实现共享模型的聚合;多个并行客户端由异构设备组成,并在地理上独立分布,互不影响。
5.根据权利要求1所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,所述环境模型由仿真模拟数据结果与原始监测数据建立,并设目标函数,所述目标函数为:
Figure FDA0004104751740000031
其中,G为当前待辨识参数值下的目标函数,Zsim为所需观测的某一指标的模型仿真值,Zrea为所需观测的本地监测数据中的某一指标的实测值;下标1、2、3…表示本地监测数据中的监测指标总数;
根据所述的目标函数G构建奖励函数r:
当目标函数G’>G时,r=r+1,
当目标函数G’<G时,r=r,
其中G’为上一步迭代时待辨识参数值下模型的目标函数,G为当前迭代步骤中待辨识参数值下的目标函数;
所设置的奖励函数r的初始值为0,训练目的是让奖励函数最大化;将在待辨识的参数取值区间范围内随机选取一个数值作为强化学习模型的一个动作,当r=r+1时,决策模型会根据当前的待辨识的参数值的波动范围ΔAm (STm)对所有的待辨识参数进行改变以确定下一次待辨识参数的数值,或者,随机变化某一待辨识参数值而固定其他待辨识参数值;当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此基础上再重新改变待辨识参数值,直到r=r+1;当r=R时,模型停止训练,R为预设阈值;
所述的当前的待辨识参数值的波动范围ΔAm (STm)具体为,根据各待辨识参数的影响系数,设置N个待辨识参数的变化值ΔAm (STm),m=1~N,其中STm是第m个待辨识参数的影响系数,下一步的参数搜索范围会根据影响系数的大小来确定,待辨识参数影响系数越大,之后所设置的参数搜索范围越精细,即ΔAm (STm)的取值越小;
之后,根据奖励函数r进行待辨识参数的改变,具体为:
当奖励函数r=r+1时,选取N个待辨识的仿真模型参数值为Am (STm)+ΔAm (STm),或者,随机变化某一待辨识参数值而固定其他待辨识参数值;
当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,再在此基础上重新改变待辨识参数值,直到r=r+1;
然后将N个待辨识的仿真模型参数值输入到仿真模型中得到新的仿真结果,更新到新的状态St+1并给出奖励r;
以新的状态St+1作为输入,采用策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作。
6.根据权利要求1所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,所述同态加密的方法为中心协调器建立密钥对,客户端持公钥,中心协调器持私钥,客户端对获取的模型梯度信息、训练数据数目及其评价结果利用公钥进行加密,中心协调器采用私钥对各所述的模型梯度信息、训练数据数目及其评价结果进行解密。
7.根据权利要求1所述的一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,步骤S4中,所述选择性地聚合具有更大收敛潜力的客户端模型参数的方法为:中心协调器根据所述的模型梯度信息、训练数据数目及其评价结果对各客户端数据进行筛选,在第一轮迭代时,剔除评价结果最差的一组模型梯度信息,使用其他组的模型梯度信息构建新的全局梯度信息以获得新的模型数据;同时存储评价结果较高的模型梯度信息,在之后的迭代训练中,聚合之前迭代所存储的评价结果较高的模型梯度信息,从而提高全局模型参数的收敛性和准确性。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1~7任一项所述的基于联邦强化学习的盾构掘进仿真模型参数辨识方法。
9.一种基于联邦强化学习的盾构掘进仿真模型参数辨识***,其特征在于,包括如权利要求8所述的计算机可读存储介质以及处理器,处理器用于调用和处理计算机可读存储介质中存储的计算机程序。
CN202310188885.1A 2023-02-28 2023-02-28 基于联邦强化学习的盾构掘进仿真模型参数辨识方法*** Pending CN116306268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310188885.1A CN116306268A (zh) 2023-02-28 2023-02-28 基于联邦强化学习的盾构掘进仿真模型参数辨识方法***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310188885.1A CN116306268A (zh) 2023-02-28 2023-02-28 基于联邦强化学习的盾构掘进仿真模型参数辨识方法***

Publications (1)

Publication Number Publication Date
CN116306268A true CN116306268A (zh) 2023-06-23

Family

ID=86791838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310188885.1A Pending CN116306268A (zh) 2023-02-28 2023-02-28 基于联邦强化学习的盾构掘进仿真模型参数辨识方法***

Country Status (1)

Country Link
CN (1) CN116306268A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593095A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 自适应调参的方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593095A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 自适应调参的方法、装置、计算机设备及存储介质
CN117593095B (zh) * 2024-01-17 2024-03-22 苏州元脑智能科技有限公司 自适应调参的方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Piryonesi et al. Role of data analytics in infrastructure asset management: Overcoming data size and quality problems
Mogheir et al. Characterizing the spatial variability of groundwater quality using the entropy theory: I. Synthetic data
Li et al. The statistical need to include phylogeny in trait‐based analyses of community composition
Li et al. Robust stochastic configuration networks with maximum correntropy criterion for uncertain data regression
Bilsel et al. Ishikawa cause and effect diagrams using capture recapture techniques
Nearing et al. Does information theory provide a new paradigm for earth science? Hypothesis testing
Volodina et al. The importance of uncertainty quantification in model reproducibility
Deng et al. Hybrid grey wolf optimization algorithm–based support vector machine for groutability prediction of fractured rock mass
Tam et al. Artificial neural networks model for predicting excavator productivity
CN106572493A (zh) Lte网络中的异常值检测方法及***
García‐Carreras et al. An empirical link between the spectral colour of climate and the spectral colour of field populations in the context of climate change
CN104750932A (zh) 一种混合不确定性下基于代理模型的结构可靠性分析方法
Liu et al. Comparing the random forest with the generalized additive model to evaluate the impacts of outdoor ambient environmental factors on scaffolding construction productivity
Manouchehrian et al. Selection of regression models for predicting strength and deformability properties of rocks using GA
CN116306268A (zh) 基于联邦强化学习的盾构掘进仿真模型参数辨识方法***
DiRenzo et al. A practical guide to understanding and validating complex models using data simulations
Yao et al. Constrained multi‐objective test data generation based on set evolution
Navratil et al. An end-to-end deep sequential surrogate model for high performance reservoir modeling: Enabling New Workflows
Dong Application of Big Data Mining Technology in Blockchain Computing
Terry et al. Widespread analytical pitfalls in empirical coexistence studies and a checklist for improving their statistical robustness
Begum et al. Software Defects Identification: Results Using Machine Learning and Explainable Artificial Intelligence Techniques
Farhan et al. Improved imputation of missing pavement performance data using auxiliary variables
Quigley et al. A Bayes linear Bayes method for estimation of correlated event rates
Shi et al. A discrete particle swarm optimization algorithm for travelling salesman problem
CN114331349B (zh) 一种基于物联网技术的科研项目管理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination