CN107515736B - 一种在嵌入式设备上加速深度卷积网络计算速度的方法 - Google Patents

一种在嵌入式设备上加速深度卷积网络计算速度的方法 Download PDF

Info

Publication number
CN107515736B
CN107515736B CN201710528733.6A CN201710528733A CN107515736B CN 107515736 B CN107515736 B CN 107515736B CN 201710528733 A CN201710528733 A CN 201710528733A CN 107515736 B CN107515736 B CN 107515736B
Authority
CN
China
Prior art keywords
point operation
low
floating point
performance
performance floating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710528733.6A
Other languages
English (en)
Other versions
CN107515736A (zh
Inventor
林倞
王可泽
郑会钿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou wisdom Technology (Guangzhou) Co.,Ltd.
Original Assignee
Guangzhou Shenyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenyu Information Technology Co ltd filed Critical Guangzhou Shenyu Information Technology Co ltd
Priority to CN201710528733.6A priority Critical patent/CN107515736B/zh
Publication of CN107515736A publication Critical patent/CN107515736A/zh
Application granted granted Critical
Publication of CN107515736B publication Critical patent/CN107515736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Nonlinear Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法,包括:根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。本发明能够更好地发挥嵌入式设备的计算能力,减少深度卷积网络的计算时间。

Description

一种在嵌入式设备上加速深度卷积网络计算速度的方法
技术领域
本发明涉及基于嵌入式设备的高性能计算及深度学习领域,具体涉及一种在嵌入式设备上加速深度卷积网络计算速度的方法。
背景技术
最近,深度学习(Deep Learning)在图像(视频)理解以及语音(文本)识别等各个领域得到了广泛应用。深度学习常常被看作是通向真正人工智能的重要一步,因而很多公司对深度学习的应用带有比较浓厚的兴趣。在很多学术领域,深度学习与非深度学习算法相比,往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队。
深度卷积网络(CNN)是一种多层神经网络,擅长处理图像特别是大图像的相关深度学习问题,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。深度卷积网络是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功。CNN相较于传统的图像处理算法的优点之一在于,避免了对图像复杂的前期预处理过程(提取人工特征等),可以直接输入原始图像。
然而深度学习真正应用于实际的工程应用中缺很少,主要的原因是深度学习需要的计算量很大,硬件设备特别是嵌入式硬件设备计算能力不足。深度神经网络中神经元多,神经元间连接数量也相当惊人。从数学的角度看,每个神经元都要包含数学计算(如Sigmoid、ReLU或者Softmax函数),需要估计的参数量也极大。语音识别和图像识别应用中,神经元达数万个,参数数千万,模型复杂导致计算量大。
目前深度学习在实际应用中遇到的问题在于:能满足上述计算能力的设备往往价格昂贵,不能用于实际的工业生产应用,而成本低的嵌入式设备往往计算能力不足。
因此,如何在有限性能的嵌入式设备上充分利用设备资源,提高设备的计算能力,从而使得低成本的嵌入式设备能够满足深度卷积网络的计算需求,进而使得深度学习能应用到实际应用中,成为了急待攻克的重要课题。
发明内容
本发明的目的在于,针对现有技术中存在的问题,提供一种在嵌入式设备上加速深度卷积网络计算速度的方法,充分利用嵌入式设备上的CPU和GPU进行动态负载均衡,加快深度卷积网络处理图像视频数据的速度,以解决嵌入式设备上深度卷积网络计算量大、耗时长的问题。
为实现上述目的,本发明采用以下技术方案:
一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,所述方法包括:
根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。
进一步地,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备的方法为:
嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。
进一步地,所述CPU包括浮点运算单元和监控单元;其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
进一步地,所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。
进一步地,所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。
进一步地,所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
进一步地,当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备;若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
进一步地,高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
进一步地,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务;
所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
进一步地,所述嵌入式设备为移动终端设备,包括:移动手机、游戏盒子、平板电脑和卡片式电脑计算机。
与现有技术相比,本发明充分利用了嵌入式设备上有限的CPU和GPU资源,使用单指令多数据和Neon指令集充分发挥CPU的浮点运算能力,使用OpenCL充分发挥了GPU的浮点运算能力,并通过动态负载均衡地加速深度卷积网络计算,能够更好地发挥嵌入式设备的计算能力,减少深度卷积网络的计算时间。
附图说明
图1是本发明实施例的原理示意图。
图2是本发明实施例的深度卷积网络计算任务分配示意图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
如图1所示,本发明提供了一种在嵌入式设备上加速深度卷积网络计算速度的方法,该方法主要应用于嵌入式设备上,所述嵌入式设备应包括至少一个CPU和至少一个GPU。通过在处理图像视频数据的过程中,对CPU和GPU进行动态负载均衡,来加速深度卷积神经网络的计算速度,以解决嵌入式设备上深度卷积网络计算量大,耗时长的问题。
所述嵌入式设备包括:移动手机、游戏盒子、平板电脑、卡片式电脑计算机等移动终端设备。
本发明的核心思想是根据CPU和GPU的性能差异分配不同的任务。具体地,所述方法包括:
首先,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
接着,在进行深度卷积网络计算时,高性能浮点运算设备(图1所示的设备1)逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备(图1所示的设备2)处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理。
需要说明的是,本发明中所定义的高性能浮点运算设备和低性能浮点运算设备,主要是为了将CPU和GPU的性能差异进行比较和区分,以便于进行计算任务的动态分配。所谓的“高性能”和“低性能”也只是针对两者相比较而言,并非指代特殊的性能指标。在实际应用中,所述高性能浮点运算设备可以是CPU也可以是GPU,具体需要对CPU和GPU进行性能比对得出。
具体地,在本实施例中,分辨高性能浮点运算设备和低性能浮点运算设备的方法为:嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。简单而言,所述高性能浮点运算设备是CPU或GPU中单独处理一张图片较快的设备,所述低性能浮点运算设备是CPU或GPU中单独处理一张图片较慢的设备。
在本发明中,所述CPU主要分为两个模块:浮点运算单元和监控单元。其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备参与深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
进一步地,所述CPU的浮点运算单元利用单指令多数据(Single InstructionMultiple Data)并行处理深度卷积网络的浮点运算。所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
本发明在利用嵌入式设备进行深度卷积网络计算的过程中,对高性能浮点运算设备和低性能浮点运算设备的计算任务进行动态分配。具体的任务分配取决于低性能浮点运算设备何时处于低负载或者空载状态,以此使高性能浮点运算设备和低性能浮点运算设备协同计算,实现负载均衡。
高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
具体地,在进行深度卷积网络计算的过程中,所述监控线程在没有接收到所述低性能浮点运算设备处于低负载或者空载状态的信号时,即低性能浮点运算设备持续处于高负载状态时,所述高性能浮点运算设备按设定的任务逐帧获取图像数据并按照深度卷积网络的层次依次进行计算处理,直至处理完所有的视频数据。
一旦所述低性能浮点运算设备进入低负载或者空载状态,则广播告知监控线程,并准备接收来自高性能浮点运算设备的数据和处理任务。
监控线程在收到低性能浮点运算设备的广播信息后,向高性能浮点运算设备发送一个强制结束当前帧处理并开始下一帧处理的信号;然后继续监控低性能浮点运算设备的状态。
如图2所示,当高性能浮点运算设备(图2所示的设备1)接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备(图2所示的设备2);若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
以上方法中,本发明将整个卷积神经网络的所有层动态划分为两个部分,所述高性能浮点运算设备接收输入数据开始进行深度卷积网络的处理,所述低性能浮点运算设备的输入来自所述高性能浮点运算设备输出的中间处理结果,由监控线程协调分配。
进一步地,在分辨高性能浮点运算设备和低性能浮点运算设备时,根据高性能浮点运算设备处理一张图片的时间可以知道高性能浮点运算设备对整个深度卷积网络每个层的大致处理时间。因此可以对本发明做出如下改进:
如图2所示,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务。其中,所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
按照本发明的方法,高性能浮点运算设备一直处于高负载状态,而低性能浮点运算设备一旦处于低负载或者空载状态,监控线程会立刻将高性能浮点运算设备对当前帧图像数据的剩余计算任务交付给低性能浮点运算设备处理,因此,低性能浮点运算设备也几乎一直处于高负载状态。
按照本发明的方法,嵌入式设备上可用于计算的资源可以被充分利用,CPU和GPU针对处理任务实现负载均衡,从而减少深度卷积网络处理所需的时间,使得嵌入式设备能更好地将深度学习应用于实际应用中。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种在嵌入式设备上加速深度卷积网络计算速度的方法,所述嵌入式设备包括至少一个CPU和至少一个GPU,其特征在于,所述方法包括:
根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备;
在进行深度卷积网络计算时,高性能浮点运算设备逐帧获取图像数据进行处理;CPU创建一监控线程,用于持续监控低性能浮点运算设备的负载状态;
当监控线程发现低性能浮点运算设备处于低负载或空载状态时,向高性能浮点运算设备发送信号,使高性能浮点运算设备强制结束当前帧图像数据的深度卷积网络计算任务,并开始进行下一帧图像数据的深度卷积网络计算任务;同时,将当前帧图像数据的剩余计算任务交由低性能浮点运算设备继续处理;
当高性能浮点运算设备接收到来自监控线程的强制处理下一帧图像数据的信号时,高性能浮点运算设备对当前帧图像数据的深度卷积网络计算任务在当前网络层停止,并将该层输出的中间处理结果输入到低性能浮点运算设备;若接收到信号时,高性能浮点运算设备正在处理当前网络层,则等待当前网络层处理完毕,再将该层输出的中间处理结果输入到低性能浮点运算设备。
2.根据权利要求1所述的方法,其特征在于,根据嵌入式设备的CPU和GPU的浮点运算速度,分辨出高性能浮点运算设备和低性能浮点运算设备的方法为:
嵌入式设备的CPU和GPU分别单独获取一帧图像并进行处理,其中,先处理完的定义为高性能浮点运算设备,后处理完的定义为低性能浮点运算设备。
3.根据权利要求1所述的方法,其特征在于,所述CPU包括浮点运算单元和监控单元;其中,浮点运算单元用于作为高性能浮点运算设备或低性能浮点运算设备进行深度卷积网络计算;监控单元用于建立监控线程,监控低性能浮点运算设备的负载状态。
4.根据权利要求3所述的方法,其特征在于,所述CPU的浮点运算单元利用单指令多数据(Single Instruction Multiple Data)并行处理深度卷积网络的浮点运算。
5.根据权利要求4所述的方法,其特征在于,所述CPU的不同核间使用OpenMP进行数据共享,使用Neon指令集做浮点运算。
6.根据权利要求1所述的方法,其特征在于,所述GPU利用OpenCL做数据并行处理,提升深度卷积网络处理图像数据的速度。
7.根据权利要求1所述的方法,其特征在于,高性能浮点运算设备和低性能浮点运算设备之间的通信,通过监控线程调控完成,高性能浮点运算设备对于当前帧的中间处理结果通过OpenCL机制传输到低性能浮点运算设备。
8.根据权利要求1所述的方法,其特征在于,当监控线程发现低性能浮点运算设备处于低负载或空载状态,且高性能浮点运算设备完成当前帧的剩余计算任务所需的时间低于一阈值时,高性能浮点运算设备继续完成当前帧的剩余计算任务而不交由低性能浮点运算设备继续处理;同时,低性能浮点运算设备开始进行下一帧图像数据的深度卷积网络计算任务;
所述阈值为高性能浮点运算设备将当前帧图像数据的剩余计算任务交给低性能浮点运算设备所需的时间。
9.根据权利要求1所述的方法,其特征在于,所述嵌入式设备为移动终端设备,包括:移动手机、游戏盒子、平板电脑和卡片式电脑计算机。
CN201710528733.6A 2017-07-01 2017-07-01 一种在嵌入式设备上加速深度卷积网络计算速度的方法 Active CN107515736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710528733.6A CN107515736B (zh) 2017-07-01 2017-07-01 一种在嵌入式设备上加速深度卷积网络计算速度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710528733.6A CN107515736B (zh) 2017-07-01 2017-07-01 一种在嵌入式设备上加速深度卷积网络计算速度的方法

Publications (2)

Publication Number Publication Date
CN107515736A CN107515736A (zh) 2017-12-26
CN107515736B true CN107515736B (zh) 2021-01-15

Family

ID=60722091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710528733.6A Active CN107515736B (zh) 2017-07-01 2017-07-01 一种在嵌入式设备上加速深度卷积网络计算速度的方法

Country Status (1)

Country Link
CN (1) CN107515736B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490896B (zh) * 2018-01-25 2022-11-29 腾讯科技(深圳)有限公司 一种视频帧图像处理方法和装置
CN110231928A (zh) * 2018-03-06 2019-09-13 北京京东尚科信息技术有限公司 用于处理浮点数的***、浮点数处理方法及装置
CN108491890B (zh) * 2018-04-04 2022-05-27 百度在线网络技术(北京)有限公司 图像方法和装置
CN108958938B (zh) * 2018-06-29 2020-01-14 百度在线网络技术(北京)有限公司 数据处理方法、装置及设备
CN109522185A (zh) * 2018-11-19 2019-03-26 江苏镭博智能科技有限公司 一种模型分割提高运算速度的方法
CN109598250B (zh) * 2018-12-10 2021-06-25 北京旷视科技有限公司 特征提取方法、装置、电子设备和计算机可读介质
CN110135580B (zh) * 2019-04-26 2021-03-26 华中科技大学 一种卷积网络全整型量化方法及其应用方法
US11803733B2 (en) 2019-08-01 2023-10-31 Samsung Electronics Co., Ltd. Method for implementing neural network model in heterogeneous computing platform and apparatus for performing the same

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030095A (zh) * 2006-03-02 2007-09-05 联想(新加坡)私人有限公司 发热量的控制方法以及计算机
CN101706741A (zh) * 2009-12-11 2010-05-12 中国人民解放军国防科学技术大学 一种基于负载平衡的cpu和gpu两级动态任务划分方法
CN101802774A (zh) * 2007-09-20 2010-08-11 苹果公司 在图形源之间切换以便于实现功率管理和/或安全性
JP2014021810A (ja) * 2012-07-20 2014-02-03 Seiko Epson Corp 衝突検出システム、衝突検出用データ生成装置、ロボットシステム、ロボット、衝突検出用データ生成方法及びプログラム
CN103582509A (zh) * 2010-12-14 2014-02-12 亚马逊技术股份有限公司 通用处理器和图形处理器之间的负载均衡
CN104536937A (zh) * 2014-12-30 2015-04-22 深圳先进技术研究院 基于cpu-gpu异构集群的大数据一体机实现方法
CN104539972A (zh) * 2014-12-08 2015-04-22 中安消技术有限公司 一种多核处理器中视频并行解码的控制方法和装置
CN104869398A (zh) * 2015-05-21 2015-08-26 大连理工大学 一种基于cpu+gpu异构平台实现hevc中的cabac的并行方法
CN105869117A (zh) * 2016-03-28 2016-08-17 上海交通大学 一种针对深度学习超分辨率技术的gpu加速方法
CN106170743A (zh) * 2014-04-08 2016-11-30 高通股份有限公司 多处理器片上***中的能效感知热管理

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101467558B1 (ko) * 2007-07-26 2014-12-01 엘지전자 주식회사 그래픽데이터 처리 장치 및 방법
US9342366B2 (en) * 2012-10-17 2016-05-17 Electronics And Telecommunications Research Institute Intrusion detection apparatus and method using load balancer responsive to traffic conditions between central processing unit and graphics processing unit
KR102005765B1 (ko) * 2012-12-17 2019-07-31 삼성전자주식회사 시스템-온 칩과, 이의 동작 방법
JP2015035073A (ja) * 2013-08-08 2015-02-19 ルネサスエレクトロニクス株式会社 半導体装置及び半導体装置の制御方法
CN106575379B (zh) * 2014-09-09 2019-07-23 英特尔公司 用于神经网络的改进的定点整型实现方式
CN105630882B (zh) * 2015-12-18 2019-09-20 哈尔滨工业大学深圳研究生院 基于遥感数据深度学习的近海污染物识别与跟踪方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030095A (zh) * 2006-03-02 2007-09-05 联想(新加坡)私人有限公司 发热量的控制方法以及计算机
CN101802774A (zh) * 2007-09-20 2010-08-11 苹果公司 在图形源之间切换以便于实现功率管理和/或安全性
CN101706741A (zh) * 2009-12-11 2010-05-12 中国人民解放军国防科学技术大学 一种基于负载平衡的cpu和gpu两级动态任务划分方法
CN103582509A (zh) * 2010-12-14 2014-02-12 亚马逊技术股份有限公司 通用处理器和图形处理器之间的负载均衡
JP2014021810A (ja) * 2012-07-20 2014-02-03 Seiko Epson Corp 衝突検出システム、衝突検出用データ生成装置、ロボットシステム、ロボット、衝突検出用データ生成方法及びプログラム
CN106170743A (zh) * 2014-04-08 2016-11-30 高通股份有限公司 多处理器片上***中的能效感知热管理
CN104539972A (zh) * 2014-12-08 2015-04-22 中安消技术有限公司 一种多核处理器中视频并行解码的控制方法和装置
CN104536937A (zh) * 2014-12-30 2015-04-22 深圳先进技术研究院 基于cpu-gpu异构集群的大数据一体机实现方法
CN104869398A (zh) * 2015-05-21 2015-08-26 大连理工大学 一种基于cpu+gpu异构平台实现hevc中的cabac的并行方法
CN105869117A (zh) * 2016-03-28 2016-08-17 上海交通大学 一种针对深度学习超分辨率技术的gpu加速方法

Also Published As

Publication number Publication date
CN107515736A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515736B (zh) 一种在嵌入式设备上加速深度卷积网络计算速度的方法
CN112561078B (zh) 分布式的模型训练方法及相关装置
CN107862374B (zh) 基于流水线的神经网络处理***和处理方法
CN110796242A (zh) 神经网络模型推理方法、装置、电子设备及可读介质
CN109597965B (zh) 基于深度神经网络的数据处理方法、***、终端及介质
WO2020189844A1 (ko) 인공 신경망을 처리하는 방법 및 이를 위한 전자 장치
CN104410821B (zh) 一种大规模智能视频分析运算***以及运算方法
CN110531996B (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN110058934B (zh) 一种在大规模云雾计算环境中制定最优任务卸载决策的方法
CN108229652B (zh) 神经网络模型迁移方法和***、电子设备、程序和介质
CN109491956B (zh) 一种异构协同计算***
CN108345934B (zh) 一种用于神经网络处理器的激活装置及方法
CN110232338B (zh) 基于二值神经网络的轻量化Web AR识别方法及***
CN110968366A (zh) 一种基于有限mec资源的任务卸载方法、装置及设备
CN108320018A (zh) 一种人工神经网络运算的装置及方法
CN111831359A (zh) 权重精度配置方法、装置、设备及存储介质
CN110795235A (zh) 一种移动web深度学习协作的方法及***
CN111831355A (zh) 权重精度配置方法、装置、设备及存储介质
CN109840597B (zh) 一种模型预测方法、装置、电子设备及存储介质
US10963775B2 (en) Neural network device and method of operating neural network device
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同***及方法
CN108494705A (zh) 一种网络报文高速处理***和方法
CN111199276A (zh) 数据处理方法及相关产品
Ha et al. Efficient Resource Augmentation of Resource Constrained UAVs Through EdgeCPS
Chen et al. DWFed: A statistical-heterogeneity-based dynamic weighted model aggregation algorithm for federated learning

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220328

Address after: 511455 No. 106, Fengze East Road, Nansha District, Guangzhou City, Guangdong Province (self compiled Building 1) x1301-b013290

Patentee after: Guangzhou wisdom Technology (Guangzhou) Co.,Ltd.

Address before: 510000 210-5, Chuangqi Building 1, 63 Chuangqi Road, Shilou Town, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU SHENYU INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right