CN113283171A - 工业平台资源优化分配装置及方法 - Google Patents
工业平台资源优化分配装置及方法 Download PDFInfo
- Publication number
- CN113283171A CN113283171A CN202110582489.8A CN202110582489A CN113283171A CN 113283171 A CN113283171 A CN 113283171A CN 202110582489 A CN202110582489 A CN 202110582489A CN 113283171 A CN113283171 A CN 113283171A
- Authority
- CN
- China
- Prior art keywords
- resource
- robot
- appeal
- unit
- distribution system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013468 resource allocation Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 28
- 230000003993 interaction Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 description 17
- 230000001186 cumulative effect Effects 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Feedback Control In General (AREA)
Abstract
一种工业平台资源优化分配装置及方法,包括:内容分发***和资源库,其中:内容分发***生成机器人的资源预测请求并输出至资源库,根据资源库的反馈进行最优资源配置,实现机器人服务流程的同时基于新增的数据更新内容分发***中诉求预测单元中的神经网络模型,资源库接收内容分发***发出的资源预测请求,预测潜在可分配的最优资源配置,接收内容分发***的资源调度单元的资源申请,基于资源申请分配资源。本发明通过对机器人诉求和优化目标进行建模,本发明推荐给机器人其可以分配到的资源,并通过机器人的反馈获取资源分配的合理性,打破服务器端与机器人之间信息不对称的僵局。
Description
技术领域
本发明涉及的是一种工业海量信息处理领域的技术,具体是一种工业平台资源优化分配装置及方法。
背景技术
随着信息化的发展,工业领域***的规模越来越大。例如,在大规模分布式任务或***中(例如覆盖多地区的众包任务、互联网中推荐***的内容分发任务等),基于智能算法的机器人(或代理程序等)需要完成各自的任务。但是,当数据量巨大,或者机器人因为某些原因不能向服务器公开自己所有信息的情况时,控制端服务器无法存储所有机器人的信息,并且服务器无法同时向所有的机器人分配所需的资源和任务。
发明内容
本发明针对现有技术存在的上述不足,提出一种工业平台资源优化分配装置及方法,通过对机器人诉求和优化目标进行建模,本发明推荐给机器人其可以分配到的资源,并通过机器人的反馈获取资源分配的合理性,打破服务器端与机器人之间信息不对称的僵局。
本发明是通过以下技术方案实现的:
本发明涉及一种工业平台资源优化分配装置,包括:内容分发***和资源库,其中:内容分发***生成机器人的资源预测请求并输出至资源库,根据资源库的反馈进行最优资源配置,实现机器人服务流程的同时基于新增的数据更新内容分发***中诉求预测单元中的神经网络模型,资源库接收内容分发***发出的资源预测请求,预测潜在可分配的最优资源配置,接收内容分发***的资源调度单元的资源申请,基于资源申请分配资源。
所述的内容分发***包括:交互单元、诉求预测单元、特征存储单元、资源调度单元和网络训练单元,其中:交互单元接收机器人的资源请求,将机器人ID和预算发送给诉求预测单元;诉求预测单元将机器人ID发送给特征存储单元;特征存储单元将该机器人特征发送给诉求预测单元;诉求预测单元中的神经网络基于机器人特征预测出机器人的诉求,将诉求与预算发送给资源库;诉求预测单元根据来自资源库的资源预测结果发送给交互单元,交互单元询问机器人是否采纳;并在机器人采纳该资源调度结果时,将机器人授权的资源调度结果发送给资源调度单元;资源调度单元发送资源申请请求给资源库;资源调度单元将资源发送给机器人;该轮交互结束,交互单元将最新一轮的交互数据发送给特征存储单元。
所述的神经网络模型,通过以下方式进行训练:网络训练单元向特征存储单元发送数据请求;特征存储单元将训练数据发送给网络训练单元;网络训练单元训练神经网络模型,并更新诉求预测单元中的神经网络模型。
技术效果
本发明整体解决了现有技术中由于机器人通信或者表达能力限制或者由于资源分发***存储处理能力和计算能力限制下,机器人诉求难以明确表达,进而难以得到个性化满足,从而导致***资源分配效率低下的缺点。
与现有技术相比,本发明通过对机器人诉求和优化目标进行建模,我们推荐给机器人其可以分配到的资源,并通过机器人的反馈获取资源分配的合理性。我们设计的***可以依据机器人的采纳行为,收集机器人对不同资源的需求信息,打破服务器端与机器人之间信息不对称的僵局。
附图说明
图1为本发明***示意图;
图2为内容分发***内部结构示意图;
图3为实施例模型对比实验结果示意图;
图中:a)不同比例Dropout下的累积期望遗憾,b)不同比例Dropout下的累积采纳率;
图4为实施例诉求相关信息的影响示意图;
图中:a)诉求相关信息对累积期望遗憾的影响,b)诉求相关信息对累积采纳率的影响。
具体实施方式
如图1所示,为本实施例涉及一种工业平台信息优化分发装置,包括:内容分发***和资源库,其中:资源库根据申请资源预算划拨资源返回至内容分发***,内容分发***预测机器人的诉求,对其进行最优资源配置并基于新增的数据更新诉求预测单元2中的神经网络模型。内容分发***接收机器人资源申请预算信息,基于机器人的历史数据进行诉求预测,为机器人划拨最优资源配置。
如图2所示,所述的内容分发***包括:交互单元1、诉求预测单元2、特征存储单元3、资源调度单元4、网络训练单元5,其中:交互单元1接收机器人的资源请求,将机器人ID和预算发送给诉求预测单元2;诉求预测单元2将机器人ID发送给特征存储单元3;特征存储单元3将该机器人特征发送给诉求预测单元2;诉求预测单元2中的神经网络基于机器人特征预测出机器人的诉求,将诉求与预算发送给资源库;资源库计算潜在可分配资源,发送给诉求预测单元2;诉求预测单元2将资源预测结果发送给交互单元1,交互单元1询问机器人是否采纳;并在机器人采纳该资源调度结果,交互单元1将机器人授权的资源调度结果发送给资源调度单元4;资源调度单元4发送资源申请请求给资源库;资源库分配相应的资源给资源调度单元4;资源调度单元4将资源发送给机器人;该轮交互结束,交互单元1将最新一轮的交互数据发送给特征存储单元3。
所述的神经网络模型的训练流程中步骤如下:(a)网络训练单元5向特征存储单元3发送数据请求;(b)特征存储单元将训练数据发送给网络训练单元5;(c)网络训练单元训练神经网络模型,并更新诉求预测单元2中的神经网络模型。
本实施例涉及上述工业平台信息优化分发装置,通过以下方式进行工业平台信息优化分发处理:当有机器人发起资源申请请求时,内容分发***从申请请求中解析出机器人相关信息并生成估计的机器人需求,并将机器人需求以及为该机器人分配的预算等信息发送到资源库,询问可分配的资源;资源库根据内容分发***提供的需求和预算估计能够获取的资源,并将预计的可分配资源v=[v1,v2,…,vn]T返回,内容分发***据此向机器人发送资源申请结果,并根据机器人的采纳反馈信号,通过资源库将基于该需求的真实资源结果分配给机器人。
综上,该***可以依据机器人的采纳行为,收集机器人对不同资源的偏好信息,打破服务器端与机器人之间信息不对称的僵局,更好地配置资源库中的整体资源。
所述的可分配的资源是指:在预算等各种约束下,机器人可以获得的资源结果,具体为:v=[v1,v2,…,vn]T,其中:n表示资源的种类数,值vi表示第i维资源的量。
所述的机器人相关信息,包括:机器人拥有的资源申请预算、机器人对于不同的资源的偏好,即诉求权重向量:w=[w1,w2,…,wn]T,其中:wi表示机器人对i维报表的偏好权重。
本实施例定义Π为一种资源配置方法。当机器人的诉求向量为w*,服务器可以基于诉求向量配置其最优的资源。令优化目标为w*T·v,即资源结果基于诉求的加权求和。对于诉求为w*的机器人,向其推荐最优资源配置策略Πw*即为解最优化问题:其中:资源申请结果vΠ为资源库基于策略Π可达的最优解,w*T·vΠ为机器人基于策略Π可以获得的效用。因此,权重向量w*可以帮助内容分发平台在资源库中寻找并获取令机器人最满意的资源申请结果。
当进行推荐时,当机器人对预期的结果感到满意,则会采纳该建议。否则,机器人则会跳过该建议。基于上述的观察,本实施例将需要优化的问题建模成上下文***问题,并设计具体的算法程序,具体包括:
1)状态:平台能够观察到的与机器人相关的信息。如:机器人特征,可以为该机器人分配的预算,机器人的历史询问和采纳与否等。
2)动作:机器人诉求向量。算法程序的动作选择空间为高维连续空间。算法程序需要根据状态中的约束信息,以及自己选择的动作,即预估的机器人诉求向量,向资源库发送请求,获取资源库预测的资源推荐项。
3)回报:本实施例将回报设置为机器人的采纳行为。
基于上述的建模,上下文***算法会不断地为来访的机器人进行策略推荐,每轮推荐中:
1)算法程序观察到该轮推荐中机器人的状态。
2)算法程序基于该状态选择一个诉求向量,将诉求向量与预算等约束信息传给资源库,资源库进行预估的资源结果。算法程序将该结果推荐给机器人,并获得机器人的反馈。
3)算法程序存储该轮的观察(机器人状态、诉求向量、资源分配结果、机器人反馈)以作为更新自己智能推荐策略的训练数据。
动作价值估计:经典的上下文***算法中,根据所观察到的上下文,算法程序会基于一定的策略对***臂进行拉杆,学习每个可选动作的期望价值。在本实施例的问题中,服务器端选择动作的奖励为机器人的采纳与否,最大化奖励即为推荐给机器人其最有可能采纳的策略。
本实施例中动作价值估计过程包括:
1)基于能够观察到的信息与动作选择策略进行动作选择。
2)建立所选动作、申请资源结果与机器人采纳率之间的联系。
本实施例首先刻画机器人信息与动作选择之间的联系,即在服务器端能够观测到的信息下,基于一定动作选择策略得到诉求向量w=f(x),其中:函数f为多层感知机,表示环境状态x到诉求信息w之间的映射关系,函数f的输入x为环境的特征表达。在本实施例的问题中,网络的输出为w,网络的监督信息(即动作的价值)为机器人的采纳行为。直观上说,令v为w下的最优资源分配结果,wT·v的值反映了诉求为w的机器人能够在平台获取的效用。因此,机器人的采纳率与wT·v在某种程度上呈正相关。
本实施例中采用p(采纳)=σ(wT·v),表示机器人采纳率与wT·v的关系,其中:σ为sigmoid函数,值域为[0,1],基于w的最优竞价结果v也作为模型输入的一部分。
基于上述方法,可以采用梯度更新的方式更新网络对动作价值的估计。对于每一轮的梯度更新,本实施例通过损失函数L更新模型的参数,具体为: 其中:集合为该轮更新中大小为N的数据集,环境特征x与资源申请结果v为模型的输入,p(x,v)为模型预测的采纳率,标签y为采纳标签。训练过程中,需要先输入环境特征x,得到模型的诉求输出w,并根据w获得结果v,最后得到模型的预估采纳率p(x,v)。
动作选择算法:本实施例使用汤普森采样进行动作选择,汤普森采样是一种在探索(Exploration)和利用(Exploitation)之间权衡的流行手段。通常来说,汤普森采样需要对模型参数进行贝叶斯处理。在每个步骤中,汤普森采样都会重新采样一组新的模型参数,然后基于该组参数进行动作选择。这可以看作是一种随机检验:更可能的参数会被更频繁地采样到,从而更快地被驳斥或者确认。
所述的汤普森采样包括:采样模型的一组新参数;根据采样参数选择预期收益最高的动作;更新模型参数。
对神经网络模型进行汤普森采样,需要刻画模型的不确定性,贝叶斯模型提供了基于数学框架来推理模型的不确定性,但通常带有禁止性的计算成本。Dropout是指在神经网络的训练过程中,按照一定的概率将一部分神经元暂时从神经网络中丢弃。Yarin等人在《Dropout as a Bayesian approximation:Representing model uncertaintyin deeplearning》中提出利Dropout作为一种贝叶斯近似的方法,在深度学习中表示模型的不确定性,并证明了具有任意深度的非线性神经网络,当在每个权重层之前应用Dropout,则在数学上等效于深度概率高斯过程的近似。此外,Dropout作为神经网络的一种简单且常见的防止过拟合的技巧,由于易于实现、性能高效且有着很好的效果,已经被广泛运用于神经网络的训练中。因此,本实施例在神经网络中使用Dropout来进行汤普森采样,这非常简单但有效。
在实验中,模型的输入特征为诉求相关特征和与机器人的历史采纳信息。对于诉求相关特征,本实施例将其串联起来作为模型的输入之一。训练过程中,本实施例使用小批量梯度下降来训练网络模型。为了防止模型获得的正负样本比例随训练过程而变化,从而影响模型性能,本实施例将每个训练批次中正负样本的比例设置为1:1。模型训练过程中的优化器为Adam,实验结果如表1所示。
上下文***的优化目标为T轮推荐期望遗憾,因此,本实施例可以通过累积期望遗憾和累积采纳率来评价模型的表现,其中T表示实验已经进行了T轮交互,值表示第t轮中,基于机器人内心诉求进行推荐的采纳率,值表示第t轮中,基于动作选择算法输出的wt进行推荐的采纳率。
表1
对比实验结果:在仿真实验中,本实施例验证上下文***算法的有效性。对比实验中,本实施例对比了模型在不进行Dropout或者在不同比例下进行Dropout时的效果。本实施例还引入了不应用任何诉求估计算法的随机诉求推荐策略作为弱基准。每组实验中,算法程序会与环境进行一共2000轮的交互,并间隔一定轮数记录当前的累积期望遗憾和累积采纳率,交互结束后的实验结果显示在表1中。从结果中,本实施例发现随机诉求推荐***会导致评价指标的大幅下降,这表明在推荐策略时必须考虑机器人的诉求。不同Dropout比例的累积期望遗憾和累积采纳率曲线显示在图3中,由于本实施例发现在实验中不同算法会收敛到不同局部最优解,使得期望遗憾在模型收敛后会按一定斜率近似线性增长,为了更好地了解模型收敛后的表现差别,本实施例通过y=log(x+1)对累积期望遗憾进行了预处理,并对实验结果进行了归一化以绘制曲线。通过图3中的趋势,并分析实验过程中的实时累积期望遗憾和累积采纳率,本实施例发现在图3所示的训练过程中,所有模型的累积期望遗憾增量在逐渐减小并收敛。在图3所示的训练过程中,所有模型的累积采纳率在逐渐增大并收敛。上述观察说明不同模型收敛到了不同的局部最优解,但是它们都能一定程度地学习到机器人的诉求,并提升推荐***的表现性能。例如,在表1中,即使是没有运用Dropout的模型,与随机诉求推荐策略(没有学习模块)相比,也可以将累积期望遗憾减少25.71%。
实验中,采用Dropout进行动作探索的动作选择算法效果要优于不采用Dropout的动作选择算法,这是由于采用Dropout的动作采样可以近似看成汤普森采样,平衡探索(Exploration)和利用(Exploitation),更好地在模型的动作空间中进行采样,从而收敛到更好的局部最优解。在Dropout比例为20%,40%,60%,80%的四组实验中,随着Dropout比例的增大,模型的表现先提升后下降。这可能是由于在Dropout比例低的时候,模型采用了较保守的探索策略,从而更可能收敛到一个比较差的局部最优解;而在Dropout比例较高的时候,模型频繁进行探索,导致其不能充分利用学习到的知识,使得性能下降。其中:当Dropout比例为40%时,模型的表现在训练中和收敛后相对于其他Dropout比例的模型均取得了较好的效果,这说明通过设置合适的Dropout比例来权衡探索(Exploration)和利用(Exploitation)能够优化模型的表现。
如图3所示,为交互初期可能会产生累积采纳率下降的情况,这可能是由于训练初期模型的不确定性较大导致的。分析了实验过程中的实时累积期望遗憾和累积采纳率后,本实施例发现在累积采纳率下降的同一时期内,累积期望遗憾的增量明显下降,说明探索(Exploration)能够使模型更好地学习机器人诉求。
为了验证模型的泛化能力,本实施例进行了对照实验。实验中,实验组为Dropout比例40%的模型,对照组为同样的模型,但是本实施例对对照组模型输入中的诉求相关信息进行了随机化处理,本实施例对实验结果进行了与图二中类似的处理,并在图4和表1中进行了展示。由图4和表1中的实验结果可以得到,有诉求相关信息输入的模型性能优于没有诉求相关信息输入的模型,这体现了模型可以通过诉求相关信息更好地学习机器人的诉求。
现有常规手段并未建立与机器人资源分配满意度的交互过程,并未建模机器人的诉求偏好,并未使用机器人对于资源分配结果的反馈信号来学习机器人的诉求偏好,并未使用在线学习中探索利用的方式向机器人进行个性化诉求推荐的优化,并未实现机器人诉求偏好推荐策略的大规模泛化型应用。
与现有技术相比,本方法显著提升了机器人诉求满足率,资源分配效率,推荐策略泛化性。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (6)
1.一种工业平台资源优化分配装置,其特征在于,包括:内容分发***和资源库,其中:内容分发***生成机器人的资源预测请求并输出至资源库,根据资源库的反馈进行最优资源配置,实现机器人服务流程的同时基于新增的数据更新内容分发***中诉求预测单元中的神经网络模型,资源库接收内容分发***发出的资源预测请求,预测潜在可分配的最优资源配置,接收内容分发***的资源调度单元的资源申请,基于资源申请分配资源。
2.根据权利要求1所述的工业平台资源优化分配装置,其特征是,所述的内容分发***包括:交互单元、诉求预测单元、特征存储单元、资源调度单元和网络训练单元,其中:交互单元接收机器人的资源请求,将机器人ID和预算发送给诉求预测单元;诉求预测单元将机器人ID发送给特征存储单元;特征存储单元将该机器人特征发送给诉求预测单元;诉求预测单元中的神经网络基于机器人特征预测出机器人的诉求,将诉求与预算发送给资源库;诉求预测单元根据来自资源库的资源预测结果发送给交互单元,交互单元询问机器人是否采纳;并在机器人采纳该资源调度结果时,将机器人授权的资源调度结果发送给资源调度单元;资源调度单元发送资源申请请求给资源库;资源调度单元将资源发送给机器人;该轮交互结束,交互单元将最新一轮的交互数据发送给特征存储单元。
3.根据权利要求2所述的工业平台资源优化分配装置,其特征是,所述的神经网络模型,通过以下方式进行训练:网络训练单元向特征存储单元发送数据请求;特征存储单元将训练数据发送给网络训练单元;网络训练单元训练神经网络模型,并更新诉求预测单元中的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582489.8A CN113283171A (zh) | 2021-05-27 | 2021-05-27 | 工业平台资源优化分配装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110582489.8A CN113283171A (zh) | 2021-05-27 | 2021-05-27 | 工业平台资源优化分配装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283171A true CN113283171A (zh) | 2021-08-20 |
Family
ID=77281828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110582489.8A Pending CN113283171A (zh) | 2021-05-27 | 2021-05-27 | 工业平台资源优化分配装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283171A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100017516A1 (en) * | 2008-07-16 | 2010-01-21 | General Instrument Corporation | Demand-driven optimization and balancing of transcoding resources |
CN101836227A (zh) * | 2007-08-06 | 2010-09-15 | 汤姆森许可贸易公司 | 产品服务分析和最优化的方法和*** |
CN107888669A (zh) * | 2017-10-31 | 2018-04-06 | 武汉理工大学 | 一种基于深度学习神经网络的大规模资源调度***及方法 |
CN111126641A (zh) * | 2019-11-25 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种资源分配方法和装置 |
CN111491006A (zh) * | 2020-03-03 | 2020-08-04 | 天津大学 | 负载感知的云计算资源弹性分配***及方法 |
CN111930524A (zh) * | 2020-10-10 | 2020-11-13 | 上海兴容信息技术有限公司 | 一种计算资源分配的方法和*** |
CN112291335A (zh) * | 2020-10-27 | 2021-01-29 | 上海交通大学 | 移动边缘计算中的优化任务调度方法 |
CN112418699A (zh) * | 2020-11-30 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 资源分配方法、装置、设备及存储介质 |
CN112565378A (zh) * | 2020-11-30 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 云原生资源动态预测方法、装置、计算机设备及存储介质 |
-
2021
- 2021-05-27 CN CN202110582489.8A patent/CN113283171A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101836227A (zh) * | 2007-08-06 | 2010-09-15 | 汤姆森许可贸易公司 | 产品服务分析和最优化的方法和*** |
US20100017516A1 (en) * | 2008-07-16 | 2010-01-21 | General Instrument Corporation | Demand-driven optimization and balancing of transcoding resources |
CN107888669A (zh) * | 2017-10-31 | 2018-04-06 | 武汉理工大学 | 一种基于深度学习神经网络的大规模资源调度***及方法 |
CN111126641A (zh) * | 2019-11-25 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种资源分配方法和装置 |
CN111491006A (zh) * | 2020-03-03 | 2020-08-04 | 天津大学 | 负载感知的云计算资源弹性分配***及方法 |
CN111930524A (zh) * | 2020-10-10 | 2020-11-13 | 上海兴容信息技术有限公司 | 一种计算资源分配的方法和*** |
CN112291335A (zh) * | 2020-10-27 | 2021-01-29 | 上海交通大学 | 移动边缘计算中的优化任务调度方法 |
CN112418699A (zh) * | 2020-11-30 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 资源分配方法、装置、设备及存储介质 |
CN112565378A (zh) * | 2020-11-30 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 云原生资源动态预测方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
LIYI GUO: "A Deep Prediction Network for Understanding Advertiser Intent and Satisfaction", 《CIKM"20》 * |
LIYI GUO: "We Know What YouWant: An Advertising StrategyWe Know What YouWant: An Advertising Strategy Recommender System for Online Advertising", 《ARXIV》 * |
吴帆: "基于博弈论的频谱动态管理研究", 《计算机研究与发展》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gronauer et al. | Multi-agent deep reinforcement learning: a survey | |
CN111556461A (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
Djigal et al. | Machine and deep learning for resource allocation in multi-access edge computing: A survey | |
JP2007317068A (ja) | リコメンド装置およびリコメンドシステム | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN114490057A (zh) | 一种基于深度强化学习的mec已卸载任务资源分配方法 | |
CN115686846B (zh) | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 | |
Štula et al. | Continuously self-adjusting fuzzy cognitive map with semi-autonomous concepts | |
Hafez et al. | Topological Q-learning with internally guided exploration for mobile robot navigation | |
Iqbal et al. | Intelligent multimedia content delivery in 5G/6G networks: a reinforcement learning approach | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同***及方法 | |
CN113283171A (zh) | 工业平台资源优化分配装置及方法 | |
CN114942799B (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN116367190A (zh) | 一种面向6g移动网络的数字孪生功能虚拟化方法 | |
CN115220818A (zh) | 基于深度强化学习的实时依赖型任务卸载方法 | |
CN112632615B (zh) | 基于混合云环境的科学工作流数据布局方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
Kim | Reinforcement learning | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和*** | |
CN111027709B (zh) | 信息推荐方法、装置、服务器及存储介质 | |
CN114449536A (zh) | 一种基于深度强化学习的5g超密集网络多用户接入选择方法 | |
Guan et al. | Demand prediction based slice reconfiguration using dueling deep Q-network | |
CN117793805B (zh) | 动态用户随机接入的移动边缘计算资源分配方法与*** | |
US12019712B2 (en) | Enhanced reinforcement learning algorithms using future state prediction scaled reward values | |
US20230177117A1 (en) | Enhanced Reinforcement Learning Algorithms Using Future State Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210820 |