CN109948428B - 面向传感信息处理的gpu集群深度学习边缘计算*** - Google Patents

面向传感信息处理的gpu集群深度学习边缘计算*** Download PDF

Info

Publication number
CN109948428B
CN109948428B CN201910080007.1A CN201910080007A CN109948428B CN 109948428 B CN109948428 B CN 109948428B CN 201910080007 A CN201910080007 A CN 201910080007A CN 109948428 B CN109948428 B CN 109948428B
Authority
CN
China
Prior art keywords
task
model
tcap
sensing
gpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910080007.1A
Other languages
English (en)
Other versions
CN109948428A (zh
Inventor
陈庆奎
那丽春
陈明浩
曹渠成
汪明明
庄松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910080007.1A priority Critical patent/CN109948428B/zh
Publication of CN109948428A publication Critical patent/CN109948428A/zh
Application granted granted Critical
Publication of CN109948428B publication Critical patent/CN109948428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向传感信息处理的GPU集群深度学习边缘计算***,运用前端智能传感设备的弱小的计算能力对传感信息预特征提取,使得原始数据信息量大大压缩,再将剩余处理任务交给GPU集群进行大规模传感数据特征聚类集合处理,通过任务拆分处理可以动态地适应前端智能传感设备的计算能力,减轻前端传感设备和硬件版本一致性要求的成本压力;降低边缘计算网络的通信压力,使得构建边缘计算的网络成本大大降低;网路数据特征传输隐藏了用户隐私;网络中传输的数据和存储的数据核心特征,通过聚类操作,发挥了GPU的SPMD优势,提高了边缘计算的并行计算效率,同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。

Description

面向传感信息处理的GPU集群深度学习边缘计算***
技术领域
本发明涉及一种计算机技术,特别涉及一种面向传感信息处理的GPU集群深度学习边缘计算***。
背景技术
随着物联网技术和人工智能技术的飞速发展,相应的复合应用已经在各个领域展开,特别是基于视频的实时分析技术应用已经成为热点。例如,大规模视频监控用于公交***拥挤度实时分析、居家养老用于大社区范围的养老照护、工业自动化分拣应用等。对于这些基于视频传感的大规模应用面临诸多问题需要解决:1)传感信息的实时处理对前端传感设备的成本提出了挑战;2)视频数据的实时传输对通讯网络产生了压力;3)视频数据的存储和传输对隐私保护问题带来了应用难点(如居家养老照护隐私问题)。这些都为边缘计算技术的应用带来了机会。其关键是构建高性能价格比的边缘计算架构、模型和应用支撑模式。以小型GPU集群为中心的边缘计算模式可以有效解决局部大规模传感的汇集、传输、计算和存储的综合高性价比***。
发明内容
本发明是针对大规模物联网传感信息对物联网络和服务器***压力日益增大的问题,提出了一种面向传感信息处理的GPU集群深度学习边缘计算***,通过弹性协同机制,利用前端智能传感设备的预处理和初始特征提取,把数千个传感数据特征传输到GPU集群边缘计算中心按照SPMD(单程序多数据并行)模式统一并行实时处理。
本发明的技术方案为:一种面向传感信息处理的GPU集群深度学习边缘计算***,对前端智能传感***中传感数据进行实时处理,包括DL训练***、DL任务拆分计算与部署***、前端智能传感***、汇集***、任务调度***、聚类缓冲区、GPU集群服务计算***、结果缓冲区和全局资源目录库;各个应用领域对应的样本数据集送入DL训练***进行模型训练,每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型,DL训练***生成所有模型送全局资源目录库和DL任务拆分计算与部署***;DL任务拆分计算与部署***从全局资源目录库读取前端智能传感***传感数据,部署在前端智能传感***中,并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例,智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作,把得到的处理中间结果传输至汇集***,汇集***将前端智能传感***处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区,任务调度***根据聚类缓冲区的中间结果进行聚类,任务调度***按照该聚类计算批任务所需要的计算资源,寻找适当的GPU集群服务计算***,并发送该聚类批任务到选定的GPU集群服务计算***,GPU集群服务计算***配置相应的服务器端DL模型,完成前端智能传感***的传感数据剩余比例处理任务,GPU集群服务计算***把完成的最终结果送入结果缓冲区。
所述DL任务拆分计算与部署***根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α,然后对百分比b=1-α的计算工作部分安排相应的GPU集群服务计算***进行执行。
所述面向传感信息处理的GPU集群协同深度学习边缘计算***运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算***动态任务分配表;
1)智能传感器任务部署表定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的轻量DL模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,α,Tcap构成定义,该子表的每一行记载一个轻量DL模型,LDLMT的no为该轻量DL模型的序号,LDLM为轻量DL模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期,IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作;
2)聚类任务表定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为服务器端DL模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作;
3)GPU集群服务计算***动态任务分配表定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为服务器端DL模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,GPU集群服务计算***需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作。
本发明的有益效果在于:本发明面向传感信息处理的GPU集群深度学习边缘计算***,1)运用前端智能传感设备的弱小的计算能力对传感信息进行预特征提取,可以根据前端智能传感设备的计算能力动态地量力而行地分配计算任务,减轻了前端传感设备的成本压力以及硬件版本一致要求的成本压力(不同时期的不同计算能力的前端设备可以一同使用,延长设备的寿命,降低了陈本,可以大规模普及应用);2)通过前端智能传感设备的预处理使得原始传感数据(如图像)的信息量大大压缩(仅仅获取传感数据的核心特征),降低了边缘计算网络(往往是无线网络、窄带物联网)的通信压力,使得构建边缘计算的网络成本大大降低;3)过前端智能传感设备的预处理使得原始传感数据的敏感部分被模糊淡化(图像的原始面貌发生了特征变换),使得边缘计算网络中传输的数据和存储的数据聚焦数据核心特征,更容易被隐私敏感的用户接受应用,拓展了物联网应用普及的范围;4)汇集到GPU集群的大规模传感数据特征集合通过聚类划分来驱动GPU的SPMD计算机制,使得边缘计算的并行计算效率得到了提高,同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。
附图说明
图1为本发明面向传感信息处理的GPU集群深度学习边缘计算***结构示意图。
具体实施方式
一、面向传感信息处理的GPU集群协同深度学习(Deep Learning-DL)边缘计算***结构组成:
1、如图1所示GPU集群协同深度学习边缘计算***结构示意图,面向大规模物联信息智能处理的GPU集群协同DL边缘计算***(DLECG)包括:DL训练***、轻型DL模型集合、服务端DL模型集合、DL任务拆分计算与部署***、前端智能传感***、汇集***、任务调度***、聚类缓冲区、GPU集群服务计算***、结果缓冲区、全局资源目录库。
2、DL训练***(DLTS)由若干个DL训练模型DLTM构成,DLTS有自己的标识符ID。每个DLTM可以定义为一个四元组DLTM,包括DLMS,DLMSSD,LDLM和SDLM;其中DLMS为DLTM所采用的DL开发工具(例如Tensorflow,Keras等);DLMSSD为应用领域对应的训练数据集;LDLM为基于DLMS(如Tensorflow的轻量化版本Tensorflow Lite),利用DLMSSD训练出的DLTS所对应的领域应用轻量DL模型,此轻量DL模型是可以运行在移动设备芯片(如ARM)上的应用模型(例如应用Tensorflow Lite训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等);SDLM为基于DLMS,利用DLMSSD训练出的DLTS所对应的领域应用服务器端DL模型,此服务端DL模型是可以运行在服务器芯片(如多核CPU、GPU集群等)上的应用模型(例如应用Tensorflow训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等)。
3、轻型DL模型集合由DL训练***(DLTS)生成的所有轻量DL模型构成,可以表示为LDLM1,LDLM2,……,LDLMn,n为领域应用个数。
4、服务端DL模型集合由DL训练***(DLTS)生成的所有服务端DL模型构成,可以表示为SDLM1,SDLM2,……,SDLMn,n为领域应用个数。为了简述,LDLMi和SDLMi(1≤i≤n)为一个应用模型对,即他们分别对应第i个领域应用的运行在移动设备和服务端设备上的DL模型。
5、前端智能传感***由若干个智能传感器IS构成,每个智能传感器IS由ID,Cpower,Func,Bnet,Dinput,DT,Tcap构成定义,其中ID为IS的标识符,Cpower为IS的计算能力,Func为IS的功能描述,Bnet为IS的通信能力,Dinput为IS采集数据,DT为执行Func来计算Dinput所需要的总计算能力(总计算工作量),Tcap为IS的传感数据的计算周期间隔。
6、GPU集群服务计算***由若干个GPU服务器构成,称为GPUS,GPUS由ID,Cowper,Func,Rpower,Kernel,Tcap构成定义,其中ID为GPUS的标识符,Cpower为其计算能力,Func为其功能描述,Bpower为其聚类数据处理能力,Dinput为其聚类数据集合,Tcap为其聚类数据计算周期间隔。
7、DL任务拆分计算与部署***根据智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出IS的Func所对应的轻量DL模型LDLM能够完成处理Dinput的计算工作的百分比α,然后对百分比b=1-α的Dinput部分安排相应的GPUS服务器进行执行,数对(α,b)为DL任务拆分计算与部署***对IS的LDLM模型计算量进行了划分。在实际工作中,如深度学习模型中,α可以为IS完成的神经网络分层数,b为GPUS完成的神经网络分层数,也就是说IS和GPUS共同完成对Dinput的α+b层神经网络计算。
8、全局资源目录库用于存放***的传感器资源、DL模型资源、GPUS计算资源、任务拆分与部署信息、聚类数据信息等。
9、汇集***通过物联网通信网络(如WIFI、4G、ZIGBEE、LORA等)汇集来自前端智能传感器***并发传来的轻型DL模型所计算的中间结果(仅仅完成IS计算,也就是DT的百分之α);并按照轻型DL模型集合LDLM1,LDLM2,……,LDLMn进行聚类,即使用了同一领域应用轻型DL模型LDLM且前端计算百分比相同的中间结果聚为一类,放置到聚类缓冲区。
10、任务调度***根据聚类缓冲区的中间结果得到聚类数据GC,按照GC完成后续DL模型计算任务所需要的计算资源,寻找适当的GPUS并配置相应的SDLM,驱动它们完成GC的后百分之b的计算工作。GPU集群服务计算***把完成的最终结果送入结果缓冲区。
二、***运行数据结构
1、智能传感器任务部署表
智能传感器任务部署表可以定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的LDLM模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,a,Tcap构成定义,该子表的每一行记载一个LDLM,LDLMT的no为该LDLM的序号,LDLM为模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期(IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作)。
2、聚类任务表
聚类任务表可以定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期(需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)
3、GPUS动态任务分配表
GPUS动态任务分配表可以定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期(GPUS需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)
三、算法
1、DL训练***工作过程:
设有p个应用领域,分别为D1,D2,…,Dp,它们对应的样本数据集为DLMSSD1,DLMSSD2,…,DLMSSDp,它们实施的DL计算任务分别为DT1,DT2,…,DTp。每个DTi(1≤i≤p)有多个子任务构成,例如在深度学习网络中可以定义为卷积、池化等一系列子任务。
对每个应用领域Di(1≤i≤p)进行模型训练,DL训练***做如下工作:
{
为Di确定一个DL开发工具DLMS(例如Tensorflow,Keras等)
对于一个训练任务DTi,利用某一DL开发工具DLMS,对样本数据集DLMSSDi进行计算训练(训练过程可参考具体的工具手册),得到一个训练模型DLTMi(IDi,DLMSi,DLMSSDi,LDLMi,SDLMi,DTi,Dui);
};
完成所有训练任务,输出p个训练模型DLTM1,DLTM2,……,DLTMp和SLTM1,SLTM2,……,SLTMp到全局资源目录库。这里我们对每个应用领域Di(1<=i<=p)对应都得到2个模型,一个可以运行在智能传感器上的轻型DL模型LDLMi,另一个是运行在GPU服务器上的服务端DL模型SDLMi
2、DL任务拆分计算与部署***过程如下:
读取全局资源目录库,获取前端传感器***内的q个智能传感器ISj(ID,Cpower,Func,Bnet,Dinput,Dt,Tcap)(1≤j≤q);获取p个应用领域的训练模型DLTM1,DLTM2,……,DLTMp
对每个智能传感器ISj(1≤j≤q),做如下工作:
{为ISj生成一个标识符ISid,置计数器num=1;
在智能传感器任务部署表ISTA中增加一个行复合对象OTMP(ISid,num,LDLMT(NULL)),其中NULL表示子表为空;
对ISj对应的每个应用领域训练模型DLTMi(1≤i≤p),做如下工作:
{获取模型DLTMi的处理数据单元规范Dui和ISj单位计算任务量DTj
设对Dui执行任务DTj的百分之α后产生的中间结果为Mm;采用如下约束来确定比例α的值:(1)α*DTj≤ISj.Cpower;(2)Mm的数据规模≤ISj.Bnet;(3)α*DTj的运行时间+传输Mm通讯时间≤DLTMi.Tcap,从约束条件计算出拆分任务DTj中ISj传感器计算工作量为α*DTj;其中*为乘法运算;
把行复合对象OTMP(ISid,num,LDLMT())增加一个字表行LDLMT(DLTMi.TDi,DLTMi.LDLM,Dui,DTj,α,DLTMi.Tcap),并且num++;
}
用num值更新行复合对象OTMP(ISid,num,LDLMT())的num属性;
}
3、前端传感器***工作过程如下:
对前端传感器***中的每个智能传感器ISj(1≤j≤q),并发地如下工作:
{获取工作任务标志Tflag;(选择当前传感器的领域应用模型)
读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,DLTMi.LDLM,DTj,α,Tcap);
装载ISconfig.Func功能函数库;根据α*DT的值拆分功能函数库Func为subFunc;
智能传感器ISj周而复始地做如下工作:
{启动计时器tt=0且tt<Tcap时,做:
{从传感器端口读取传感数据Dinput;
对Dinput执行DLTMi.LDLM的subFunc过程并输出中间结果Mm;
传输通讯数据包TP(ISj.ISid,Tflag,Mm)到汇集***;
}
}//传感器ISj工作
}//q个传感器并发工作。
4、汇集***工作过程如下:
周而复始地做如下工作:
{读取网络数据接受端口,并发地获取来自前端传感器***的通讯数据包TP(ISj,Tflag,Mm)(1≤j≤q);
读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,LDLM,DTj,α,Tcap);根据LDLM获取对应的SDLM;计算服务器端计算任务后百分比b=1-α;
查询聚类缓冲区,根据Func、SDLM、b、Tcap计算通讯数据包TP归属的类别GCid,并把TP存入GCT(GCid,GCdata,SDLM,b,Tcap)的GCdata;
}
5、任务调度***过程:
周而复始地做如下工作:
{查询聚类缓冲区,如果有一个准备好的聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)则做如下工作:
{TotalTask=0;
扫描聚类任务GCT的GCdata,对GCdata的每个数据包TP(ISj,Tflag,Mm),做如下工作:
{读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,LDLM,DTj,α,Tcap);
TotalTask=TotalTask+(DT*1-α));
}
向GPU集群服务计算***提交资源申请向量(TotalTask,b,Tcap),要求其在Tcap的时间内完成SDLM模型的Func功能的DT*b计算工作量;
在得到GPU集群服务计算***确认恢复后,把聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)和资源申请向量(TotalTask,b,Tcap)提交给GPU集群服务计算***并行执行该聚类任务;
}
6、GPU集群服务计算***过程如下:
从任务调度***获取聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)和资源申请向量(TotalTask,b,Tcap);
读取每个GPU服务器GPUS(ID,Cowper,Func,Rpower,Kernel,Tcap)的状态信息,确定能够在Tcap时间内完成TotalTask任务的服务器子集合SUBCPUS={GPUS1,GPUS2,…,GPUSr};
把聚类任务GCT的GCdata中的所有中间结果数据Mm变换为SPMD计算模式数据(具体参见GPU编程模型CUDA),并驱动SUBCPUS所有服务器完成执行具有Func功能的KenerlSPMD计算;SUBCPUS把计算最终结果存入结果缓冲区。

Claims (3)

1.一种面向传感信息处理的GPU集群深度学习边缘计算***,对前端智能传感***中传感数据进行实时处理,其特征在于,包括DL训练***、DL任务拆分计算与部署***、前端智能传感***、汇集***、任务调度***、聚类缓冲区、GPU集群服务计算***、结果缓冲区和全局资源目录库;各个应用领域对应的样本数据集送入DL训练***进行模型训练,每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型,DL训练***生成所有模型送全局资源目录库和DL任务拆分计算与部署***;DL任务拆分计算与部署***从全局资源目录库读取前端智能传感***传感数据,部署在前端智能传感***中,并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例,智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作,把得到的处理中间结果传输至汇集***,汇集***将前端智能传感***处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区,任务调度***根据聚类缓冲区的中间结果进行聚类,任务调度***按照该聚类计算批任务所需要的计算资源,寻找适当的GPU集群服务计算***,并发送该聚类批任务到选定的GPU集群服务计算***,GPU集群服务计算***配置相应的服务器端DL模型,完成前端智能传感***的传感数据剩余比例处理任务,GPU集群服务计算***把完成的最终结果送入结果缓冲区。
2.根据权利要求1所述面向传感信息处理的GPU集群深度学习边缘计算***,其特征在于,所述DL任务拆分计算与部署***根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α,然后对百分比b=1-α的计算工作部分安排相应的GPU集群服务计算***进行执行。
3.根据权利要求2所述面向传感信息处理的GPU集群深度学习边缘计算***,其特征在于,所述面向传感信息处理的GPU集群协同深度学习边缘计算***运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算***动态任务分配表;
1)智能传感器任务部署表定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的轻量DL模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,α,Tcap构成定义,该子表的每一行记载一个轻量DL模型,LDLMT的no为该轻量DL模型的序号,LDLM为轻量DL模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期,IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作;
2)聚类任务表定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为服务器端DL模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作;
3)GPU集群服务计算***动态任务分配表定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为服务器端DL模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,GPU集群服务计算***需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作。
CN201910080007.1A 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算*** Active CN109948428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080007.1A CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080007.1A CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算***

Publications (2)

Publication Number Publication Date
CN109948428A CN109948428A (zh) 2019-06-28
CN109948428B true CN109948428B (zh) 2022-12-09

Family

ID=67007835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080007.1A Active CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算***

Country Status (1)

Country Link
CN (1) CN109948428B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11665776B2 (en) * 2019-12-27 2023-05-30 Arteris, Inc. System and method for synthesis of a network-on-chip for deadlock-free transformation
CN111160321A (zh) * 2020-02-10 2020-05-15 杭州大数云智科技有限公司 一种电瓶车上梯检测与预警***
CN111245664B (zh) * 2020-03-23 2022-12-09 上海理工大学 面向大规模数据流处理的gpu边缘计算集群通信***
CN111400048B (zh) * 2020-03-23 2022-06-07 上海理工大学 面向大规模ai数据流处理的集群汇集通信***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理***及方法
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552161B2 (en) * 2017-06-21 2020-02-04 International Business Machines Corporation Cluster graphical processing unit (GPU) resource sharing efficiency by directed acyclic graph (DAG) generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构***
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理***及方法
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器

Also Published As

Publication number Publication date
CN109948428A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948428B (zh) 面向传感信息处理的gpu集群深度学习边缘计算***
CN111562972A (zh) 一种面向群智感知的泛在操作***
CN110059620A (zh) 基于时空注意力的骨骼行为识别方法
CN110348572B (zh) 神经网络模型的处理方法及装置、电子设备、存储介质
CN104899561A (zh) 一种并行化的人体行为识别方法
CN113011282A (zh) 图数据处理方法、装置、电子设备及计算机存储介质
CN107688856B (zh) 基于深度强化学习的室内机器人场景主动识别方法
CN111026063B (zh) 数字孪生体构建方法、装置、计算机设备及存储介质
CN110532996A (zh) 视频分类的方法、信息处理的方法以及服务器
CN104750780B (zh) 一种基于统计分析的Hadoop配置参数优化方法
WO2023093724A1 (zh) 神经网络模型的处理方法及装置
CN113159273B (zh) 一种神经网络的训练方法及相关设备
CN111708641A (zh) 一种内存管理方法、装置、设备及计算机可读存储介质
CN112232889A (zh) 一种用户兴趣画像扩展方法、装置、设备及存储介质
CN109657794B (zh) 一种基于指令队列的分布式深度神经网络性能建模方法
CN112099848B (zh) 一种业务处理方法、装置及设备
CN111447592B (zh) 一种确定传输资源的方法、设备及存储介质
CN115905924B (zh) 基于人工智能物联网的数据处理方法、***及云平台
CN116363457A (zh) 任务处理、图像分类、任务处理模型的数据处理方法
CN112149826B (zh) 深度神经网络推理计算中一种基于Profile图的优化方法
CN117764368B (zh) 数据驱动的协同处理方法及装置
Ding et al. Research on the Application of Improved Attention Mechanism in Image Classification and Object Detection.
CN116680434B (zh) 基于人工智能的图像检索方法、装置、设备及存储介质
CN114237394B (zh) 一种运动识别方法、装置、设备及介质
CN114462498A (zh) 特征增强方法、装置、数据处理方法和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant