CN111783971B - 一种用于深度神经网络的可高度灵活配置的数据后处理器 - Google Patents
一种用于深度神经网络的可高度灵活配置的数据后处理器 Download PDFInfo
- Publication number
- CN111783971B CN111783971B CN202010632866.XA CN202010632866A CN111783971B CN 111783971 B CN111783971 B CN 111783971B CN 202010632866 A CN202010632866 A CN 202010632866A CN 111783971 B CN111783971 B CN 111783971B
- Authority
- CN
- China
- Prior art keywords
- processor
- data
- data post
- configuration
- hardware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 230000001133 acceleration Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Advance Control (AREA)
Abstract
本发明公开了一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成。本发明通过AOT配置确定数据后处理器可以使用的硬件资源,通过RT配置确定数据后处理器在运行时的数据处理通路,为数据后处理器的使用者提供了更加灵活的使用方式,方便其在功耗、性能与成本之间做出平衡,同时也避免了因为要适配不同网络层设计专用数据后处理器,降低了硬件成本,满足了成本敏感的深度神经加速引擎的设计需要。
Description
技术领域
本发明涉及到深度神经网络处理器技术领域,尤其涉及一种用于深度神经网络的可高度灵活配置的数据后处理器。
背景技术
深度神经网络是一种被广泛应用的机器学习算法,在深度神经网络中,通常包含了标准卷积层、池化层、全连接层和激活层。目前常见的专用深度神经网络加速器广泛采用了专用硬件电路来支持神经网络中各层网络的运算。这种专用硬件电路通常由MAC矩阵和数据后处理模块构成。数据后处理模块会针对不同的网络层对MAC矩阵输出数据做不同的处理,例如对于卷积层会进行累加计算,另外数据后处理器也能支持数据分块所需要的额外操作。
专用硬件架构虽然能够提供更高的运算速度,但是每一层网络都会由专用的硬件电路实现,因此就会有专用的MAC矩阵和数据后处理模块,这样的架构硬件复用率低,会消耗更多硬件资源,无法满足一些成本敏感的使用场景需求。
发明内容
本发明的目的就在于为了解决上述问题而提供一种用于深度神经网络的可高度灵活配置的数据后处理器。
本发明通过以下技术方案来实现上述目的:
一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理。
进一步的,AOT配置的工作流程如下:
步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数等数据后处理器需要的配置信息;
步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;
步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计。
综上可以看出,数据后处理器的AOT配置可以在后处理器的硬件实现阶段调整数据后处理器的硬件资源,从而获得具有不同硬件资源的数据后处理器硬件设计,使其可以满足具有不同硬件资源限制的设计需求。因此,在不同的应用场景中不需要修改数据后处理器的电路设计,只需要将不同需求的硬件资源要求作为配置信息写入后处理器的配置层中即可。
进一步的,RT配置方式的工作流程如下:
步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;
步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会根据前述的处理方式对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;
步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
综上可以看出,综上所述RT配置方式是在数据后处理器硬件实现完全确定之后,对数据后处理器进行配置的方式。利用RT配置可以在深度神经网络加速引擎运行时对数据后处理器进行灵活的功能调整,通过这种配置方式可以实现数据后处理器的硬件复用,从而降低硬件成本。
进一步的,该数据后处理器的完整使用流程如下:
步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;
步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
本发明的有益效果在于:
本发明通过AOT配置确定数据后处理器可以使用的硬件资源,通过RT配置确定数据后处理器在运行时的数据处理通路,为数据后处理器的使用者提供了更加灵活的使用方式,方便其在功耗、性能与成本之间做出平衡,同时也避免了因为要适配不同网络层设计专用数据后处理器,降低了硬件成本,满足了成本敏感的深度神经加速引擎的设计需要。
附图说明
图1为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的结构设计和工作方式图;
图2为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的硬件生成器的设计和工作方式图;
图3为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作方式图;
图4为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中AOT配置的工作流程图;
图5为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器中RT配置的工作流程图;
图6为本发明所述的一种用于深度神经网络的可高度灵活配置的数据后处理器的工作流程图。
具体实施方式
一种用于深度神经网络的可高度灵活配置的数据后处理器,该处理器的配置方式分为运行前(AOT)配置和运行时(RT)配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器,如图1所示,为实现AOT配置,本发明在数据后处理器的硬件实现阶段,为其设计了专用硬件生成器,硬件生成器分为了配置层和实现层,在配置层中,存放了数据后处理器硬件实现的配置信息,包括了数据后处理器中数据通路的数据位宽,关键数据处理节点的寄存器个数等,同时配置层留出了可以进行操作的接口,使用者可以根据需要填入对应的配置信息,硬件生成器在实现层中加入了接收配置层信息的接口,在获得配置信息之后可以生成对应的数据后处理器硬件设计,图2展示了数据后处理器的硬件生成器的具体设计和工作方式,图3展示了AOT配置方式的工作流程;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理,图4展示了数据后处理器进行RT配置的工作流程,图5展示了配置寄存器对数据后处理器的配置方式。
优选的,AOT配置的工作流程如下:
步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数等数据后处理器需要的配置信息;
步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;
步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计。
综上可以看出,数据后处理器的AOT配置可以在后处理器的硬件实现阶段调整数据后处理器的硬件资源,从而获得具有不同硬件资源的数据后处理器硬件设计,使其可以满足具有不同硬件资源限制的设计需求。因此,在不同的应用场景中不需要修改数据后处理器的电路设计,只需要将不同需求的硬件资源要求作为配置信息写入后处理器的配置层中即可。
优选的,RT配置方式的工作流程如下:
步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;
步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会根据前述的处理方式对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;
步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
综上可以看出,综上所述RT配置方式是在数据后处理器硬件实现完全确定之后,对数据后处理器进行配置的方式。利用RT配置可以在深度神经网络加速引擎运行时对数据后处理器进行灵活的功能调整,通过这种配置方式可以实现数据后处理器的硬件复用,从而降低硬件成本。
优选的,该数据后处理器的完整使用流程如下:
步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;
步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种用于深度神经网络的可配置的数据后处理器,其特征在于:该处理器的配置方式分为运行前AOT配置和运行时RT配置,AOT配置方式工作在数据后处理器的硬件实现阶段,用于获得使用者所需要的数据后处理器;RT配置方式工作在深度神经网络加速引擎的运行阶段,此时数据后处理器的硬件实现已经完成,加速引擎的控制通路可以根据当前正在执行运算的神经网络层对数据后处理器进行配置,数据后处理器在接收到配置信息后便可以使用其内部对应的数据通路对数据进行处理;
在数据后处理器的硬件实现阶段,为其设计了专用硬件生成器,硬件生成器分为了配置层和实现层,在配置层中,存放了数据后处理器硬件实现的配置信息,包括了数据后处理器中数据通路的数据位宽,关键数据处理节点的寄存器个数,同时配置层留出了可以进行操作的接口,使用者可以根据需要填入对应的配置信息,硬件生成器在实现层中加入了接收配置层信息的接口,在获得配置信息之后可以生成对应的数据后处理器硬件设计;AOT配置的工作流程如下:步骤1:在对配置层进行操作之前,应根据数据后处理器的硬件资源,限制确定数据后处理器的数据位宽和关键数据通路的寄存器个数;步骤2:将配置信息写入配置层的接口中,在写入时,应将所有的配置信息转换为可以被数据后处理器配置层识别的格式;步骤3:硬件实现层在接收到从配置层传来的配置信息之后,会根据配置信息调整数据后处理器的硬件资源,最终通过硬件生成器获得数据后处理器的硬件设计;
RT配置方式的工作流程如下:步骤1:神经网络加速引擎的控制通路确定数据后处理器需要处理的神经网络层,将相关的配置信息写入数据后处理器的配置寄存器;步骤2:数据后处理器根据获得的配置信息对输入数据进行处理,为数据选择对应的数据通路,如果此时加速引擎需要进行卷积层或者全连接层的运算,那么数据后处理器会对从MAC矩阵输入的数据进行进一步的累加求和操作,如果此时加速引擎正在进行平均值池化的计算,那么数据后处理器将会进行累加求和,以及求均值操作,此外如果进行按元素处理层操作,后处理器将不会进行运算操作,会直接将数据进行缓存;步骤3:在完成对输入数据的计算之后,数据后处理器会将数据缓存,并等待输出。
2.根据权利要求1所述的一种用于深度神经网络的可配置的数据后处理器,其特征在于:该数据后处理器的完整使用流程如下:步骤1:在对数据后处理器进行硬件设计时,确定硬件资源的限制,对数据后处理器进行AOT配置,通过生成器获得具体的硬件实现;步骤2:在数据后处理器真正运行时,深度神经网络加速引擎的控制器可以通过配置寄存器对数据后处理器进行配置,从而使数据后处理器可以对不同网络层中MAC阵列的输出数据进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632866.XA CN111783971B (zh) | 2020-07-02 | 2020-07-02 | 一种用于深度神经网络的可高度灵活配置的数据后处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010632866.XA CN111783971B (zh) | 2020-07-02 | 2020-07-02 | 一种用于深度神经网络的可高度灵活配置的数据后处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783971A CN111783971A (zh) | 2020-10-16 |
CN111783971B true CN111783971B (zh) | 2024-04-09 |
Family
ID=72759022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010632866.XA Active CN111783971B (zh) | 2020-07-02 | 2020-07-02 | 一种用于深度神经网络的可高度灵活配置的数据后处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783971B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
SG11202103493QA (en) | 2018-10-11 | 2021-05-28 | Tesla Inc | Systems and methods for training machine models with augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657581A (zh) * | 2017-09-28 | 2018-02-02 | 中国人民解放军国防科技大学 | 一种卷积神经网络cnn硬件加速器及加速方法 |
CN108229670A (zh) * | 2018-01-05 | 2018-06-29 | 中国科学技术大学苏州研究院 | 基于fpga的深度神经网络加速平台 |
CN108268940A (zh) * | 2017-01-04 | 2018-07-10 | 意法半导体股份有限公司 | 用于创建可重新配置的互连框架的工具 |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速*** |
CN108764466A (zh) * | 2018-03-07 | 2018-11-06 | 东南大学 | 基于现场可编程门阵列的卷积神经网络硬件及其加速方法 |
KR20180123846A (ko) * | 2017-05-10 | 2018-11-20 | 울산과학기술원 | 합성곱 신경망을 위한 논리적 3차원 구조의 재구성형 연산 가속기 |
CN108875914A (zh) * | 2018-06-01 | 2018-11-23 | 北京地平线信息技术有限公司 | 对神经网络数据进行预处理和后处理的方法和装置 |
CN109472356A (zh) * | 2018-12-29 | 2019-03-15 | 南京宁麒智能计算芯片研究院有限公司 | 一种可重构神经网络算法的加速装置及方法 |
WO2019127838A1 (zh) * | 2017-12-29 | 2019-07-04 | 国民技术股份有限公司 | 卷积神经网络实现方法及装置、终端、存储介质 |
CN111105023A (zh) * | 2019-11-08 | 2020-05-05 | 中国科学院深圳先进技术研究院 | 数据流重构方法及可重构数据流处理器 |
CN111242289A (zh) * | 2020-01-19 | 2020-06-05 | 清华大学 | 一种规模可扩展的卷积神经网络加速***与方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10949736B2 (en) * | 2016-11-03 | 2021-03-16 | Intel Corporation | Flexible neural network accelerator and methods therefor |
-
2020
- 2020-07-02 CN CN202010632866.XA patent/CN111783971B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268940A (zh) * | 2017-01-04 | 2018-07-10 | 意法半导体股份有限公司 | 用于创建可重新配置的互连框架的工具 |
KR20180123846A (ko) * | 2017-05-10 | 2018-11-20 | 울산과학기술원 | 합성곱 신경망을 위한 논리적 3차원 구조의 재구성형 연산 가속기 |
CN107657581A (zh) * | 2017-09-28 | 2018-02-02 | 中国人民解放军国防科技大学 | 一种卷积神经网络cnn硬件加速器及加速方法 |
WO2019127838A1 (zh) * | 2017-12-29 | 2019-07-04 | 国民技术股份有限公司 | 卷积神经网络实现方法及装置、终端、存储介质 |
CN108229670A (zh) * | 2018-01-05 | 2018-06-29 | 中国科学技术大学苏州研究院 | 基于fpga的深度神经网络加速平台 |
CN108764466A (zh) * | 2018-03-07 | 2018-11-06 | 东南大学 | 基于现场可编程门阵列的卷积神经网络硬件及其加速方法 |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速*** |
CN108875914A (zh) * | 2018-06-01 | 2018-11-23 | 北京地平线信息技术有限公司 | 对神经网络数据进行预处理和后处理的方法和装置 |
CN109472356A (zh) * | 2018-12-29 | 2019-03-15 | 南京宁麒智能计算芯片研究院有限公司 | 一种可重构神经网络算法的加速装置及方法 |
CN111105023A (zh) * | 2019-11-08 | 2020-05-05 | 中国科学院深圳先进技术研究院 | 数据流重构方法及可重构数据流处理器 |
CN111242289A (zh) * | 2020-01-19 | 2020-06-05 | 清华大学 | 一种规模可扩展的卷积神经网络加速***与方法 |
Non-Patent Citations (1)
Title |
---|
基于改进动态配置的FPGA卷积神经网络加速器的优化方法;陈朋 等;《高技术通讯》;第30卷(第3期);240-247 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783971A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783971B (zh) | 一种用于深度神经网络的可高度灵活配置的数据后处理器 | |
US10678584B2 (en) | FPGA-based method for network function accelerating and system thereof | |
US20190026626A1 (en) | Neural network accelerator and operation method thereof | |
CN110163016B (zh) | 混合计算***和混合计算方法 | |
US20230367593A1 (en) | RISC-V-based Artificial Intelligence Inference Method and System | |
CN113313247B (zh) | 基于数据流架构的稀疏神经网络的运算方法 | |
WO2020236236A9 (en) | Deep learning-based polymorphic platform | |
CN102567279B (zh) | 一种动态可重构阵列时序配置信息的生成方法 | |
CN111752879B (zh) | 一种基于卷积神经网络的加速***、方法及存储介质 | |
CN116991560B (zh) | 针对语言模型的并行调度方法、装置、设备及存储介质 | |
CN115456155A (zh) | 一种多核存算处理器架构 | |
CN116185599A (zh) | 异构服务器***及其使用方法 | |
CN111079908B (zh) | 片上网络数据处理方法、存储介质、计算机设备和装置 | |
US10476492B2 (en) | Structures and operations of integrated circuits having network of configurable switches | |
CN116702852B (zh) | 基于多阶段事件驱动的动态重构神经网络加速电路及*** | |
US10127040B2 (en) | Processor and method for executing memory access and computing instructions for host matrix operations | |
WO2016127422A1 (zh) | 用于处理数据的***、装置和方法 | |
US20220147097A1 (en) | Synchronization signal generating circuit, chip and synchronization method and device, based on multi-core architecture | |
CN111258641B (zh) | 运算方法、装置及相关产品 | |
CN111966399B (zh) | 指令处理方法、装置及相关产品 | |
CN111260046B (zh) | 运算方法、装置及相关产品 | |
CN113326311A (zh) | 一种数据转换方法及装置 | |
CN112114874B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN104252338A (zh) | 一种数据处理的方法和设备 | |
CN110647984B (zh) | 芯片、集成处理设备及其操作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |