CN111783971B - 一种用于深度神经网络的可高度灵活配置的数据后处理器 - Google Patents

一种用于深度神经网络的可高度灵活配置的数据后处理器 Download PDF

Info

Publication number
CN111783971B
CN111783971B CN202010632866.XA CN202010632866A CN111783971B CN 111783971 B CN111783971 B CN 111783971B CN 202010632866 A CN202010632866 A CN 202010632866A CN 111783971 B CN111783971 B CN 111783971B
Authority
CN
China
Prior art keywords
processor
data
data post
configuration
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010632866.XA
Other languages
English (en)
Other versions
CN111783971A (zh
Inventor
李思彧
伍骏
王维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Saifang Technology Co ltd
Original Assignee
Shanghai Saifang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Saifang Technology Co ltd filed Critical Shanghai Saifang Technology Co ltd
Priority to CN202010632866.XA priority Critical patent/CN111783971B/zh
Publication of CN111783971A publication Critical patent/CN111783971A/zh
Application granted granted Critical
Publication of CN111783971B publication Critical patent/CN111783971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Advance Control (AREA)

Abstract

本发明公开了一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成。本发明通过AOT配置确定数据后处理器可以使用的硬件资源,通过RT配置确定数据后处理器在运行时的数据处理通路,为数据后处理器的使用者提供了更加灵活的使用方式,方便其在功耗、性能与成本之间做出平衡,同时也避免了因为要适配不同网络层设计专用数据后处理器,降低了硬件成本,满足了成本敏感的深度神经加速引擎的设计需要。

Description

一种用于深度神经网络的可高度灵活配置的数据后处理器
技术领域
本发明涉及到深度神经网络处理器技术领域,尤其涉及一种用于深度神经网络的可高度灵活配置的数据后处理器。
背景技术
深度神经网络是一种被广泛应用的机器学习算法,在深度神经网络中,通常包含了标准卷积层、池化层、全连接层和激活层。目前常见的专用深度神经网络加速器广泛采用了专用硬件电路来支持神经网络中各层网络的运算。这种专用硬件电路通常由MAC矩阵和数据后处理模块构成。数据后处理模块会针对不同的网络层对MAC矩阵输出数据做不同的处理,例如对于卷积层会进行累加计算,另外数据后处理器也能支持数据分块所需要的额外操作。
专用硬件架构虽然能够提供更高的运算速度,但是每一层网络都会由专用的硬件电路实现,因此就会有专用的MAC矩阵和数据后处理模块,这样的架构硬件复用率低,会消耗更多硬件资源,无法满足一些成本敏感的使用场景需求。
发明内容
本发明的目的就在于为了解决上述问题而提供一种用于深度神经网络的可高度灵活配置的数据后处理器。
本发明通过以下技术方案来实现上述目的:
一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理。
进一步的,AOT配置的工作流程如下:
步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数等数据后处理器需要的配置信息;
步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;
步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计。
综上可以看出,数据后处理器的AOT配置可以在后处理器的硬件实现阶段调整数据后处理器的硬件资源,从而获得具有不同硬件资源的数据后处理器硬件设计,使其可以满足具有不同硬件资源限制的设计需求。因此,在不同的应用场景中不需要修改数据后处理器的电路设计,只需要将不同需求的硬件资源要求作为配置信息写入后处理器的配置层中即可。
进一步的,RT配置方式的工作流程如下:
步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;
步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会根据前述的处理方式对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;
步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
综上可以看出,综上所述RT配置方式是在数据后处理器硬件实现完全确定之后,对数据后处理器进行配置的方式。利用RT配置可以在深度神经网络加速引擎运行时对数据后处理器进行灵活的功能调整,通过这种配置方式可以实现数据后处理器的硬件复用,从而降低硬件成本。
进一步的,该数据后处理器的完整使用流程如下:
步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;
步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
本发明的有益效果在于:
本发明通过AOT配置确定数据后处理器可以使用的硬件资源,通过RT配置确定数据后处理器在运行时的数据处理通路,为数据后处理器的使用者提供了更加灵活的使用方式,方便其在功耗、性能与成本之间做出平衡,同时也避免了因为要适配不同网络层设计专用数据后处理器,降低了硬件成本,满足了成本敏感的深度神经加速引擎的设计需要。
附图说明
图1为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的结构设计和工作方式图;
图2为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的硬件生成器的设计和工作方式图;
图3为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作方式图;
图4为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作流程图;
图5为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中RT配置的工作流程图;
图6为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的工作流程图。
具体实施方式
一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器,如图1所示,为实现AOT配置,本发明在数据后处理器的硬件实现阶段,为其设计了专用硬件生成器,硬件生成器分为了配置层和实现层,在配置层中,存放了数据后处理器硬件实现的配置信息,包括了数据后处理器中数据通路的数据位宽,关键数据处理节点的寄存器个数等,同时配置层留出了可以进行操作的接口,使用者可以根据需要填入对应的配置信息,硬件生成器在实现层中加入了接收配置层信息的接口,在获得配置信息之后可以生成对应的数据后处理器硬件设计,图2展示了数据后处理器的硬件生成器的具体设计和工作方式,图3展示了AOT配置方式的工作流程;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理,图4展示了数据后处理器进行RT配置的工作流程,图5展示了配置寄存器对数据后处理器的配置方式。
优选的,AOT配置的工作流程如下:
步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数等数据后处理器需要的配置信息;
步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;
步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计。
综上可以看出,数据后处理器的AOT配置可以在后处理器的硬件实现阶段调整数据后处理器的硬件资源,从而获得具有不同硬件资源的数据后处理器硬件设计,使其可以满足具有不同硬件资源限制的设计需求。因此,在不同的应用场景中不需要修改数据后处理器的电路设计,只需要将不同需求的硬件资源要求作为配置信息写入后处理器的配置层中即可。
优选的,RT配置方式的工作流程如下:
步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;
步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会根据前述的处理方式对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;
步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
综上可以看出,综上所述RT配置方式是在数据后处理器硬件实现完全确定之后,对数据后处理器进行配置的方式。利用RT配置可以在深度神经网络加速引擎运行时对数据后处理器进行灵活的功能调整,通过这种配置方式可以实现数据后处理器的硬件复用,从而降低硬件成本。
优选的,该数据后处理器的完整使用流程如下:
步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;
步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种用于深度神经网络的可配置的数据后处理器,其特征在于:该处理器的配置方式分为运行前AOT配置和运行时RT配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理;
在数据后处理器的硬件实现阶段,为其设计了专用硬件生成器,硬件生成器分为了配置层和实现层,在配置层中,存放了数据后处理器硬件实现的配置信息,包括了数据后处理器中数据通路的数据位宽,关键数据处理节点的寄存器个数,同时配置层留出了可以进行操作的接口,使用者可以根据需要填入对应的配置信息,硬件生成器在实现层中加入了接收配置层信息的接口,在获得配置信息之后可以生成对应的数据后处理器硬件设计;AOT配置的工作流程如下:步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数;步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计;
RT配置方式的工作流程如下:步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
2.根据权利要求1所述的一种用于深度神经网络的可配置的数据后处理器,其特征在于:该数据后处理器的完整使用流程如下:步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
CN202010632866.XA 2020-07-02 2020-07-02 一种用于深度神经网络的可高度灵活配置的数据后处理器 Active CN111783971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010632866.XA CN111783971B (zh) 2020-07-02 2020-07-02 一种用于深度神经网络的可高度灵活配置的数据后处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010632866.XA CN111783971B (zh) 2020-07-02 2020-07-02 一种用于深度神经网络的可高度灵活配置的数据后处理器

Publications (2)

Publication Number Publication Date
CN111783971A CN111783971A (zh) 2020-10-16
CN111783971B true CN111783971B (zh) 2024-04-09

Family

ID=72759022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010632866.XA Active CN111783971B (zh) 2020-07-02 2020-07-02 一种用于深度神经网络的可高度灵活配置的数据后处理器

Country Status (1)

Country Link
CN (1) CN111783971B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657581A (zh) * 2017-09-28 2018-02-02 中国人民解放军国防科技大学 一种卷积神经网络cnn硬件加速器及加速方法
CN108229670A (zh) * 2018-01-05 2018-06-29 中国科学技术大学苏州研究院 基于fpga的深度神经网络加速平台
CN108268940A (zh) * 2017-01-04 2018-07-10 意法半导体股份有限公司 用于创建可重新配置的互连框架的工具
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速***
CN108764466A (zh) * 2018-03-07 2018-11-06 东南大学 基于现场可编程门阵列的卷积神经网络硬件及其加速方法
KR20180123846A (ko) * 2017-05-10 2018-11-20 울산과학기술원 합성곱 신경망을 위한 논리적 3차원 구조의 재구성형 연산 가속기
CN108875914A (zh) * 2018-06-01 2018-11-23 北京地平线信息技术有限公司 对神经网络数据进行预处理和后处理的方法和装置
CN109472356A (zh) * 2018-12-29 2019-03-15 南京宁麒智能计算芯片研究院有限公司 一种可重构神经网络算法的加速装置及方法
WO2019127838A1 (zh) * 2017-12-29 2019-07-04 国民技术股份有限公司 卷积神经网络实现方法及装置、终端、存储介质
CN111105023A (zh) * 2019-11-08 2020-05-05 中国科学院深圳先进技术研究院 数据流重构方法及可重构数据流处理器
CN111242289A (zh) * 2020-01-19 2020-06-05 清华大学 一种规模可扩展的卷积神经网络加速***与方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949736B2 (en) * 2016-11-03 2021-03-16 Intel Corporation Flexible neural network accelerator and methods therefor

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268940A (zh) * 2017-01-04 2018-07-10 意法半导体股份有限公司 用于创建可重新配置的互连框架的工具
KR20180123846A (ko) * 2017-05-10 2018-11-20 울산과학기술원 합성곱 신경망을 위한 논리적 3차원 구조의 재구성형 연산 가속기
CN107657581A (zh) * 2017-09-28 2018-02-02 中国人民解放军国防科技大学 一种卷积神经网络cnn硬件加速器及加速方法
WO2019127838A1 (zh) * 2017-12-29 2019-07-04 国民技术股份有限公司 卷积神经网络实现方法及装置、终端、存储介质
CN108229670A (zh) * 2018-01-05 2018-06-29 中国科学技术大学苏州研究院 基于fpga的深度神经网络加速平台
CN108764466A (zh) * 2018-03-07 2018-11-06 东南大学 基于现场可编程门阵列的卷积神经网络硬件及其加速方法
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速***
CN108875914A (zh) * 2018-06-01 2018-11-23 北京地平线信息技术有限公司 对神经网络数据进行预处理和后处理的方法和装置
CN109472356A (zh) * 2018-12-29 2019-03-15 南京宁麒智能计算芯片研究院有限公司 一种可重构神经网络算法的加速装置及方法
CN111105023A (zh) * 2019-11-08 2020-05-05 中国科学院深圳先进技术研究院 数据流重构方法及可重构数据流处理器
CN111242289A (zh) * 2020-01-19 2020-06-05 清华大学 一种规模可扩展的卷积神经网络加速***与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进动态配置的FPGA卷积神经网络加速器的优化方法;陈朋 等;《高技术通讯》;第30卷(第3期);240-247 *

Also Published As

Publication number Publication date
CN111783971A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783971B (zh) 一种用于深度神经网络的可高度灵活配置的数据后处理器
US10678584B2 (en) FPGA-based method for network function accelerating and system thereof
US20190026626A1 (en) Neural network accelerator and operation method thereof
CN110163016B (zh) 混合计算***和混合计算方法
US20230367593A1 (en) RISC-V-based Artificial Intelligence Inference Method and System
CN113313247B (zh) 基于数据流架构的稀疏神经网络的运算方法
WO2020236236A9 (en) Deep learning-based polymorphic platform
CN102567279B (zh) 一种动态可重构阵列时序配置信息的生成方法
CN111752879B (zh) 一种基于卷积神经网络的加速***、方法及存储介质
CN116991560B (zh) 针对语言模型的并行调度方法、装置、设备及存储介质
CN115456155A (zh) 一种多核存算处理器架构
CN116185599A (zh) 异构服务器***及其使用方法
CN111079908B (zh) 片上网络数据处理方法、存储介质、计算机设备和装置
US10476492B2 (en) Structures and operations of integrated circuits having network of configurable switches
CN116702852B (zh) 基于多阶段事件驱动的动态重构神经网络加速电路及***
US10127040B2 (en) Processor and method for executing memory access and computing instructions for host matrix operations
WO2016127422A1 (zh) 用于处理数据的***、装置和方法
US20220147097A1 (en) Synchronization signal generating circuit, chip and synchronization method and device, based on multi-core architecture
CN111258641B (zh) 运算方法、装置及相关产品
CN111966399B (zh) 指令处理方法、装置及相关产品
CN111260046B (zh) 运算方法、装置及相关产品
CN113326311A (zh) 一种数据转换方法及装置
CN112114874B (zh) 数据处理方法、装置、电子设备和存储介质
CN104252338A (zh) 一种数据处理的方法和设备
CN110647984B (zh) 芯片、集成处理设备及其操作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant