CN112966729B - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents
一种数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112966729B CN112966729B CN202110221235.3A CN202110221235A CN112966729B CN 112966729 B CN112966729 B CN 112966729B CN 202110221235 A CN202110221235 A CN 202110221235A CN 112966729 B CN112966729 B CN 112966729B
- Authority
- CN
- China
- Prior art keywords
- processing
- array
- weight
- elements
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 449
- 239000011159 matrix material Substances 0.000 claims abstract description 237
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 description 9
- 101100029138 Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) PE16 gene Proteins 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 101100136064 Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) PE13 gene Proteins 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种数据处理方法、装置、计算机设备及存储介质,其中,该方法包括:从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应;基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的重要模型,在图像识别、自然语言处理等方面有着广泛的应用。在卷积神经网络中,包含有卷积层、池化层、激活层、以及全连接层等多种不同的网络层。
其中,全连接层由较多个节点构成,在对全连接层的各个节点进行计算时,由于输入数据和相关参数等处理数据的数据量较大,因此每次计算都需要较长的时间将需要的数据传输至运算单元中,造成处理效率较低。
发明内容
本公开实施例至少提供一种数据处理方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种数据处理方法,包括:从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应;基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
这样,通过在每个处理周期中,分别复用传输至PE阵列中的特征元素,减少每个处理周期需要读入到PE阵列中的数据的数据量,减少数据读入PE阵列中所需要的耗时,提升PE阵列的处理效率。
一种可能的实施方式中,所述确定多个处理周期分别对应的目标特征元素以及目标权重元素之前,还包括:基于所述PE阵列的尺寸,对原始待处理图像特征矩阵以及原始权重矩阵进行尺寸变换,得到所述待处理图像特征矩阵、以及所述权重矩阵。
这样,可以将原始待处理图像特征矩阵、以及原始权重矩阵的尺寸变换至与PE阵列匹配,能够在后续处理过程中处理逻辑更加简单,简化处理过程。
一种可能的实施方式中,所述多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
一种可能的实施方式中,所述PE阵列的每一行包括重复特征元素;响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
这样,实现了在PE阵列中复用待处理图像特征数据中的一列特征元素,需要传输至PE阵列中的特征数据的数量,进而提升数据处理效率。
一种可能的实施方式中,所述利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据,包括:在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
这样,实现了在一个处理周期中对多个权重数据对应的处理任务的并行处理,并通过多个处理周期完成对多个权重数据对应处理任务的处理,使得待处理图像特征矩阵中的元素在每个周期都能够得到复用,提升数据处理的效率。
一种可能的实施方式中,所述PE阵列的每一列包括重复特征元素;响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
这样,实现了在PE阵列中复用待处理图像特征数据中的一行特征元素,需要传输至PE阵列中的特征数据的数量,进而提升数据处理效率。
一种可能的实施方式中,所述利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据,包括:在所述对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列的每个PE包括重复特征元素;响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标图像特征元素复制到其他的PE中,作为对应PE的第一个操作数;将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述基于多个所述处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据,包括:将多个处理周期中分别对应的中间处理数据中,属于同一权重矩阵的中间子数据进行累加,得到各个权重矩阵对应的子结果数据;基于多个权重矩阵分别对应的子结果数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
一种可能的实施方式中,任一处理周期对应的预设运算,包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
这样,实现了对待处理图像特征矩阵的全连接处理,使得全连接处理的效率更高,提升采用该种方式进行全连接处理的神经网络的处理速度。
第二方面,本公开实施例提供一种数据处理装置,包括:控制器以及处理引擎PE阵列;所述控制器用于从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;所述PE阵列用于响应于任一处理周期到来,所述PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据;其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应。
一种可能的实施方式中,所述控制器,在确定多个处理周期分别对应的目标特征元素以及目标权重元素之前,还用于:
基于所述PE阵列的尺寸,对原始待处理图像特征矩阵以及原始权重矩阵进行尺寸变换,得到所述待处理图像特征矩阵、以及所述权重矩阵。
一种可能的实施方式中,所述多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;
所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
一种可能的实施方式中,所述PE阵列的每一行包括重复特征元素;
所述PE阵列,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并
将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时,用于:
在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列的每一列包括重复特征元素;
所述PE阵列,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并
将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时用于:
在所述对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列的每个PE包括重复特征元素;
所述PE阵列,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标图像特征元素复制到其他的PE中,作为对应PE的第一个操作数;
将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列,在基于多个所述处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据时,用于:
将多个处理周期中分别对应的中间处理数据中,属于同一权重矩阵的中间子数据进行累加,得到各个权重矩阵对应的子结果数据;
基于多个权重矩阵分别对应的子结果数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
一种可能的实施方式中,任一处理周期对应的预设运算,包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器、及如第二方面所述的数据处理装置。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述数据装置、计算机设备、及计算机可读存储介质的效果描述参见上述数据处理方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据处理方法的流程图;
图2示出了本公开实施例所提供的数据处理方法中,利用PE矩阵对目标特征元素进行处理的一种示例;
图3示出了本公开实施例所提供的数据处理方法中,利用PE矩阵对目标特征元素进行处理的另一种示例;
图4示出了本公开实施例所提供的数据处理方法中,利用PE矩阵对目标特征元素进行处理的另一种示例;
图5示出了本公开实施例所提供的一种数据处理装置的示意图;
图6示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,现在常用的人工智能(Artificial Intelligence,AI)加速器硬件架构主要包括存储单元、计算单元、控制单元等,其中核心的计算单元一般由处理引擎(Processing Engine,PE)阵列和寄存器阵列(local register file)构成。在神经网络中的全连接处理中,通常需要利用多组全连接权重,分别对特征图中各个特征点的特征值进行加权求和处理,以得到特征图的全连接处理结果。在利用AI加速器对图像数据进行全连接处理时,需要在多个处理周期中的每个处理周期将特征图中至少部分特征元素读入到PE阵列,并将一个全连接权重中与读入到PE阵列的特征元素对应的权重元素读入到PE阵列,PE阵列对读入的特征元素和权重元素进行加权求和处理。经过多个处理周期的处理,得到对特征图进行全连接处理的结果。但是由于PE阵列读入数据的带宽有限,对于尺寸为m*n的PE阵列,每个处理周期,需要读入m*n个特征元素,并读入对应的m*n个权重元素,数据读入的效率低,造成对特征图进行全连接处理时所需要的耗时增加,进而导致了PE阵列处理效率低的问题。
基于上述研究,本公开提供了一种数据处理方法,通过在每个处理周期中,复用传输至PE阵列中的特征元素,减少每个处理周期需要读入到PE阵列中的数据的数据量,减少数据读入PE阵列中所需要的耗时,提升PE阵列的处理效率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面以对本公开实施例提供的数据处理方法加以说明。
参见图1所示,为本公开实施例提供的一种数据处理方法的流程图,所述方法包括步骤S101~S103,其中:
S101:从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,待处理图像特征矩阵对应多个权重矩阵;
S102:响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;
其中,针对任一处理周期,PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应;
S103:基于多个处理周期分别对应的中间处理数据,得到对待处理图像特征矩阵进行处理的结果数据。
本公开实施例通过从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素,并响应于任一处理周期的到来,PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,基于多个处理周期分别对应的中间处理数据,得到对待处理图像特征矩阵进行处理的结果数据,在该过程中,针对任一处理周期,PE阵列中目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应,从而通过在各个处理周期中,复用传输至PE阵列中的特征元素,减少每个处理周期需要读入到PE阵列中的数据的数据量,减少数据读入PE阵列中所需要的耗时,提升PE阵列的处理效率。
下面对上述S101~S103加以详细说明。
针对上述S101,在从待处理图像特征矩阵以及权重矩阵中确定多个处理周期分别对应的目标特征元素以及目标权重元素时,例如可以首先基于待处理图像特征矩阵与权重矩阵的数量,确定需要的处理周期的数量,然后为各个处理周期确定目标特征元素以及目标权重元素。
示例性的,为每个处理周期确定的目标特征元素的数量,少于PE阵列中PE的数量;为每个处理周期确定的目标特征元素,会从外部存储器中传输至PE阵列中的部分PE中,PE阵列中的其他PE所需要的数据,是对传输至PE阵列中的目标特征元素进行复用的重复特征元素,因此不需要由外部传输,而是从存储这些目标特征元素的PE中进行复制即可。
在实际应用中,需要进行全连接运算的特征图通常为卷积层输出的特征图,可以包括多个,这里的待处理图像特征矩阵可以为多个特征图中的一个,也可以为多个特征图组合成的组合特征图,针对为多个特征图中的一个的情况,可以针对每个特征图分别执行本公开提供的数据处理方法,再对每次执行得到的数据进行组合得到最终的全连接运算结果。
一种可能的实施方式中,多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;
所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
本公开实施例中,为了处理方便,例如可以在确定各个处理周期对应的目标特征元素以及目标权重元素之前,可以基于PE阵列的尺寸,对待处理原始图像特征矩阵、以及原始权重矩阵进行尺寸变换,得到待处理图像特征矩阵以及权重矩阵。
示例性的,若原始待处理图像特征矩阵的尺寸为M*N*S,对应原始权重矩阵的尺寸也为M*N*S。若PE阵列的尺寸为A*A,则在对原始待处理图像特征矩阵进行尺寸变换时,得到的待处理图像特征矩阵的尺寸为:A*A*W,其中,W=(M*N*S)/(A*A)。多个权重矩阵中每个权重矩阵的尺寸也为A*A*W。
另外,若原始待处理图像特征矩阵中,一个特征子图的尺寸小于或者等于PE阵列的尺寸,可以对原始待处理图像特征矩阵进行尺寸变换,也可以不对原始待处理图像特征矩阵进行尺寸变换。在不对原始待处理图像特征矩阵进行尺寸变换的情况下,若特征子图的尺寸小于PE阵列的尺寸,那么在利用PE阵列进行处理的过程中,PE阵列中的PE只会被使用一部分,而不会被全部使用。
在确定了各个处理周期分别对应的目标特征元素以及目标权重元素后,即可以在任一处理周期到来后,对该处理周期对应的目标特征元素和目标权重元素进行预设处理,得到中间处理数据。
此处,对该处理周期对应的目标特征元素和目标权重元素进行的预设处理,例如包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
此处,所进行的子运算,例如是权重矩阵分别对应的子运算。
示例性的,待处理图像特征矩阵表示为权重矩阵表示为:其中,i表示第i个权重矩阵。以第一组权重参数W1为例,其存在16个权重数据,为便于表述,表示为W1_1、W1_2、W1_3、……、W1_16,可以构成权重矩阵
则利用权重矩阵对待处理图像特征矩阵进行全连接运算时,第i个权重矩阵对应的全连接运算可以表示为:
与该权重矩阵对应的子运算例如包括:
O11=a1×wi_1+a2×wi_2+a3×wi_3+a4×wi_4;
O12=a5×wi_5+a6×wi_6+a7×wi_7+a8×wi_8;
O13=a9×wi_9+a10×wi_10+a11×wi_11+a12×wi_12;
O14=a13×wi_13+a14×wi_14+a15×wi_15+a16×wi_16。
其中,O1=O11+O12+O13+O14。
针对上述S102和S103:在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算时,例如:执行是在任一处理周期到来后,从外部存储器中读取与该处理周期对应的目标特征元素和目标权重元素,存储至PE阵列中的部分PE中,然后将目标特征元素复制到PE阵列中的其他PE中,形成第一个操作数,然后将读入的目标权重元素作为第二个操作数,并利用第一个操作数和第二个操作数进行预设运算,得到对应处理周期对应的中间处理数据。
本公开实施例以待处理图像特征矩阵的尺寸与PE阵列的尺寸一致为例,对各个处理周期的处理加以详细说明。这里,下述(1)~(3)中的示例,仅仅是确定目标特征元素,并将之存储至PE阵列中的示例,还可以采用其他的方式确定目标特征元素,在确定目标特征元素的时候,可以不按照特征元素的顺序来确定,只要保证待处理图像特征矩阵中的每个特征元素,都利用N个权重矩阵中对应权重元素进行过处理,且最终得到的每个权重矩阵对应的处理结果,为对待处理图像特征矩阵中的所有特征元素和该权重矩阵进行加权求和的结果即可。
(1)PE阵列的每一行包括重复特征元素。在该种情况下,响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时,例如可以采用下述方式:在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
在该种情况下,为多个处理周期确定的目标特征元素,例如包括待处理图像特征矩阵中的一行特征元素。由于待处理图像特征矩阵中一行特征元素的数量,与PE阵列的列数相同,因此在将一行特征元素读入到PE阵列中时,例如是将一行特征元素读入到PE阵列中的一列PE中。
将第一个操作数和第二个操作数存储至PE阵列中时,如图2中(a)所示,PE1、PE2、PE3、PE4均存储a1,并分别存储W1~W4中分别与a1对应的权重值:w1_1、w2_1、w3_1、w4_1。
类似的,PE5~PE8均存储a2,并分别存储W1~W4中分别与a2对应的权重值:w1_2、w2_2、w3_2、w4_2。
PE9~PE12均存储a3,并分别存储W1~W4中分别与a3对应的权重值:w1_3、w2_3、w3_3、w4_3。
PE13~PE16均存储a4,并分别存储W1~W4中分别与a4对应的权重值:w1_4、w2_4、w3_4、w4_4。
然后,以w1_1、w1_2、w1_3、w1_4为权重,对第一列a1、a2、a3以及a4进行加权求和,得到权重矩阵W1对应的中间数据O11。
以w2_1、w2_2、w2_3、w2_4为权重,对第二列a1、a2、a3以及a4进行加权求和,得到权重矩阵W2对应的中间数据O21。
以w3_1、w3_2、w3_3、w3_4为权重,对第三列a1、a2、a3以及a4进行加权求和,得到权重矩阵W3对应的中间数据O31。
以w4_1、w4_2、w4_3、w4_4为权重,对第四列a1、a2、a3以及a4进行加权求和,得到权重矩阵W4对应的中间数据O41。
然后结合O11、O21、O31和O41,作为该第一个处理周期对应的中间处理数据。
将第一个操作数和第二个操作数存储至PE阵列中时,如图2中(b)所示,PE1、PE2、PE3、PE4均存储a5,并分别存储W1~W4中分别与a5对应的权重值:w1_5、w2_5、w3_5、w4_5。
类似的,PE5~PE8均存储a6,并分别存储W1~W4中分别与a6对应的权重值:w1_6、w2_6、w3_6、w4_6。
PE9~PE12均存储a7,并分别存储W1~W4中分别与a7对应的权重值:w1_7、w2_7、w3_7、w4_7。
PE13~PE16均存储a8,并分别存储W1~W4中分别与a8对应的权重值:w1_8、w2_8、w3_8、w4_8。
然后,以w1_5、w1_6、w1_7、w1_8为权重,对第一列a5、a6、a7以及a8进行加权求和,得到权重矩阵W1对应的中间数据O12。
以w2_5、w2_6、w2_7、w2_8为权重,对第二列a5、a6、a7以及a8进行加权求和,得到权重矩阵W2对应的中间数据O22。
以w3_5、w3_6、w3_7、w3_8为权重,对第三列a5、a6、a7以及a8进行加权求和,得到权重矩阵W3对应的中间数据O32。
以w4_5、w4_6、w4_7、w4_8为权重,对第四列a5、a6、a7以及a8进行加权求和,得到权重矩阵W4对应的中间数据O42。
然后结合O12、O22、O32和O42,作为该处理周期对应的中间处理数据。
……
在第三个处理周期,利用类似的方式,得到权重矩阵W1中w1_9、w1_10、w1_11、w1_12与对应的a9、a10、a11以及a12生成的中间数据O13、权重矩阵W2中w2_9、w2_10、w2_11、w2_12与对应的a9、a10、a11以及a12生成的中间数据O23、权重矩阵W3中w3_9、w3_10、w3_11、w3_12与对应的a9、a10、a11以及a12生成的中间数据O33、权重矩阵W4中w4_9、w4_10、w4_11、w4_12与对应的a9、a10、a11以及a12生成的中间数据O43。
在第四个处理周期利用类似的方式,得到权重矩阵W1中w1_13、w1_14、w1_15、w1_16与对应的a13、a14、a15以及a16生成的中间数据O14、权重矩阵W2中w2_13、w2_14、w2_15、w2_16与对应的a13、a14、a15以及a16生成的中间数据O24、权重矩阵W3中w3_13、w3_14、w3_15、w3_16与对应的a13、a14、a15以及a16生成的对应的中间数据O34、权重矩阵W4中w4_13、w4_14、w4_15、w4_16与对应的a13、a14、a15以及a16生成的对应的中间数据O44。
经过4个处理周期,完成利用权重矩阵W1、W2、W3和W4对待处理图像特征矩阵的处理,然后将O11、O12、O13、O14相加,得到权重矩阵W1对应的结果值O1。将O21、O22、O23和O24相加,得到权重矩阵W2对应的结果值O2,利用类似的方式,得到权重矩阵W3对应的结果值O3、权重矩阵W4对应的结果值O4。若权重矩阵除了W1、W2、W3和W4还有更多,则利用其他的权重剧矩阵,进行类似处理。最终结合所有权重矩阵对应的结果值,得到对待处理图像特征矩阵的处理结果数据,即全连接运算结果。
这里需要注意的是,在将O21、O22、O23和O24相加时,可以在所有处理周期都执行完毕后,将O21、O22、O23和O24相加。
可以在除第一个处理周期的每个处理周期,将本周期得到的各个权重矩阵对应的结果值,和上一周期得到的所有周期的结果值和值相加。然后在最后一个处理周期,可以直接输出O21、O22、O23和O24相加的结果。
例如,在第一个处理周期结束后,PE将得到的O21存储至寄存器;在第二个处理周期得到O22后,从寄存器中读取O21,将O21和O22相加,得到结果值和值O21+O22,并将该结果值和值存储至寄存器中。在第三个处理周期得到O23后,从寄存器中取出第二个处理周期得到的结果值和值O21+O22,并将O21+O22和O23相加,得到第三个处理周期对应的结果值和值O21+O22+O23……,如此,可以在最后一个处理周期得到W1对应的结果值O2。
(2)PE阵列的每一列包括重复特征元素。在该种情况下,响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时,例如可以采用下述方式:在所述对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
在该种情况下,为多个处理周期确定的目标特征元素,例如包括待处理图像特征矩阵中的一列特征元素。由于待处理图像特征矩阵中一列特征元素的数量,与PE阵列的行数相同,因此在将一列特征元素读入到PE阵列中时,例如是将一列特征元素读入到PE阵列中的一行PE中。
在第一个处理周期,将待处理图像特征矩阵中的第一列包括的图像特征元素a1、a5、a9、a13作为目标特征元素,将目标特征元素存储至第一行PE中,并在其他行进行复制,得到PE阵列在第一个处理周期中的第一个操作数,也即可以构成矩阵
将第一个操作数和第二个操作数存储至PE阵列中时,如图3中(a)所示,PE1、PE2、PE3、PE4分别存储a1、a5、a9、a13,并存储W1中分别与a1、a5、a9、a13对应的权重值:w1_1、w1_5、w1_9、w1_13。
类似的,PE5~PE8分别存储a1、a5、a9、a13,并存储W2中分别与a1、a5、a9、a13对应的权重值:w2_1、w2_5、w2_9、w2_13。
PE9~PE12均存储分别存储a1、a5、a9、a13,并分别存储W3中分别与a1、a5、a9、a13对应的权重值:w3_1、w3_5、w3_9、w3_13。
PE13~PE16分别存储a1、a5、a9、a13,并存储W4中分别与a1、a5、a9、a13对应的权重值:w4_1、w4_5、w4_9、w4_13。
然后,以w1_1、w1_5、w1_9、w1_13为权重,对第一行a1、a5、a9以及a13进行加权求和,得到权重矩阵W1对应的中间数据O11。
以w2_1、w2_5、w2_9、w2_13为权重,对第二行a1、a5、a9以及a13进行加权求和,得到权重矩阵W2对应的中间数据O21。
以w3_1、w3_5、w3_9、w3_13为权重,对第三行a1、a5、a9以及a13进行加权求和,得到权重矩阵W3对应的中间数据O31。
以w4_1、w4_5、w4_9、w4_13为权重,对第四行a1、a5、a9以及a13进行加权求和,得到权重矩阵W4对应的中间数据O41。
然后结合O11、O21、O31和O41,作为该第一个处理周期对应的中间处理数据。
将第一个操作数和第二个操作数存储至PE阵列中时,如图3中(b)所示,PE1、PE2、PE3、PE4分别存储a2、a6、a10、a14,并存储W1中分别与a2、a6、a10、a14对应的权重值:w1_2、w1_6、w1_10、w1_14。
类似的,PE5~PE8分别存储a2、a6、a10、a14,并存储W2中分别与a2、a6、a10、a14对应的权重值:w2_1、w2_5、w2_9、w2_13。
PE9~PE12均存储分别存储a2、a6、a10、a14,并存储W3中分别与a2、a6、a10、a14对应的权重值:w3_2、w3_6、w3_10、w3_14。
PE13~PE16分别存储a2、a6、a10、a14,并存储W4中分别与a2、a6、a10、a14对应的权重值:w4_2、w4_6、w4_10、w4_14。
然后,以w1_2、w1_6、w1_10、w1_14为权重,对第一行a2、a6、a10以及a14进行加权求和,得到权重矩阵W1对应的中间数据O12。
以w2_2、w2_6、w2_10、w2_14为权重,对第二行a2、a6、a10以及a14进行加权求和,得到权重矩阵W2对应的中间数据O22。
以w3_2、w3_6、w3_10、w3_14为权重,对第三行a2、a6、a10以及a14进行加权求和,得到权重矩阵W3对应的中间数据O32。
以w4_2、w4_6、w4_10、w4_14为权重,对第四行a2、a6、a10以及a14进行加权求和,得到权重矩阵W4对应的中间数据O42。
然后结合O12、O22、O32和O42,作为该处理周期对应的中间处理数据。
……
在第三个处理周期,利用类似的方式,得到权重矩阵W1中w1_3、w1_7、w1_11、w1_15与对应的a3、a7、a11以及a15生成的中间数据O13、权重矩阵W2中w2_3、w2_7、w2_11、w2_15与对应的a3、a7、a11以及a15生成的中间数据O23、权重矩阵W3中w3_3、w3_7、w3_11、w3_15与对应的a3、a7、a11以及a15生成的中间数据O33、权重矩阵W4中w4_3、w4_7、w4_11、w4_15与对应的a3、a7、a11以及a15生成的中间数据O43。
在第四个处理周期利用类似的方式,得到权重矩阵W1中w1_4、w1_8、w1_12、w1_16与对应的a4、a8、a12以及a16生成的中间数据O14、权重矩阵W2中w2_4、w2_8、w2_12、w2_16与对应的a4、a8、a12以及a16生成的中间数据O24、权重矩阵W3中w3_4、w3_8、w3_12、w3_16与对应的a4、a8、a12以及a16生成的中间数据O34、权重矩阵W4中w4_4、w4_8、w4_12、w4_16与对应的a4、a8、a12以及a16生成的中间数据O44。
经过4个处理周期,完成利用权重矩阵W1、W2、W3和W4对待处理图像特征矩阵的处理,然后将O11、O12、O13、O14相加,得到权重矩阵W1对应的结果值O1。将O21、O22、O23和O24相加,得到权重矩阵W2对应的结果值O2,利用类似的方式,得到权重矩阵W3对应的结果值O3、权重矩阵W4对应的结果值O4,若权重矩阵仅有W1、W2、W3和W4,则结合O1、O2、O3和O4,作为对待处理图像特征矩阵进行处理的结果。若权重矩阵除了W1、W2、W3和W4还有更多,则利用其他的权重剧矩阵,进行类似处理。最终结合所有权重矩阵对应的结果值,得到对待处理图像特征矩阵的处理结果数据,即全连接运算结果。此处,将同一权重矩阵在不同处理周期分别对应的结果值进行相加的过程与上述(1)中类似,在此不再赘述。
(3)所述PE阵列的每个PE包括重复特征元素。在该种情况下,响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:
响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标特征元素复制到其他的PE中,作为对应PE的第一个操作数;
将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
在该种情况下,为多个处理周期确定的目标特征元素,例如包括待处理图像特征中的一个特征元素,在对应的处理周期中,该一个特征元素被读入到PE阵列中的一个PE中,并由该一个PE复制到其他的PE中。
在第一个处理周期,将待处理图像特征矩阵中的一个图像特征元素a1为目标特征元素,并将目标特征元素存储至第一个PE中,并将其复制到其他的PE中,得到PE阵列在第一个处理周期中的第一个操作数,也即可以构成矩阵
将第一个操作数和第二个操作数存储至PE阵列中时,如图4中(a)所示,PE1~PE16均存储a1,并分别存储W1~W16中分别与a1对应的权重值:w1_1~w16_1。
然后计算w1_1和a1的乘积,得到权重矩阵W1对应的中间数据O11;
计算w2_1和a1的乘积,得到权重矩阵W2对应的中间数据O21;
……
计算计算w16_1和a1的乘积,得到权重矩阵W16对应的中间数据O161。
将第一个操作数和第二个操作数存储至PE阵列中时,如图4中(b)所示,PE1~PE16均存储a16,并分别存储W1~W16中分别与a16对应的权重值:w1_16~w16_16。
然后计算w1_2和a2的乘积,得到权重矩阵W1对应的中间数据O12;
计算w2_2和a2的乘积,得到权重矩阵W2对应的中间数据O22;
……
计算计算w16_2和a2的乘积,得到权重矩阵W16对应的中间数据O162。
……
然后计算w1_16和a16的乘积,得到权重矩阵W1对应的中间数据O116;
计算w2_16和a16的乘积,得到权重矩阵W2对应的中间数据O216;
……
计算计算w16_16和a16的乘积,得到权重矩阵W16对应的中间数据O1616。
经过16个处理周期,完成利用权重矩阵W1、W2、W3和W4对待处理图像特征矩阵的处理,然后将O11~O116相加,得到权重矩阵W1对应的结果值O1;将O21~O216相加,得到权重矩阵W2对应的结果值O2;……;将O161~O1616相加,得到权重矩阵W16对应的结果值O16。最终结合16个权重矩阵对应的结果值O1~O16,得到对待处理图像特征矩阵的处理结果数据,即全连接运算结果。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据处理方法对应的数据处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图5所示,为本公开实施例提供的一种数据处理装置的示意图,所述装置包括:包括:控制器51以及PE阵列52;
所述控制器51用于从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;
所述PE阵列52用于响应于任一处理周期到来,PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据;
其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应。
本公开实施例提供的数据处理装置可以包括芯片、AI芯片等。本公开实施例提供的计算机设备可以包括手机等智能终端,或者也可以是其他可以用于进行数据处理的设备、服务器等,这里并不限制。
一种可能的实施方式中,所述控制器51,在确定多个处理周期分别对应的目标特征元素以及目标权重元素之前,还用于:
基于所述PE阵列的尺寸,对原始待处理图像特征矩阵以及原始权重矩阵进行尺寸变换,得到所述待处理图像特征矩阵、以及所述权重矩阵。
一种可能的实施方式中,所述多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;
所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
一种可能的实施方式中,所述PE阵列的每一行包括重复特征元素;
所述PE阵列52,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并
将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列52,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时,用于:
在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列的每一列包括重复特征元素;
所述PE阵列52,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并
将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列52,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时用于:
在所述对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列的每个PE包括重复特征元素;
所述PE阵列52,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标图像特征元素复制到其他的PE中,作为对应PE的第一个操作数;
将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
一种可能的实施方式中,所述PE阵列52,在基于多个所述处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据时,用于:
将多个处理周期中分别对应的中间处理数据中,属于同一权重矩阵的中间子数据进行累加,得到各个权重矩阵对应的子结果数据;
基于多个权重矩阵分别对应的子结果数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
一种可能的实施方式中,任一处理周期对应的预设运算,包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种计算机设备,如图6所示,为本公开实施例提供的计算机设备结构示意图,包括:
处理器61、存储器62和本公开提供的数据处理装置63。
上述存储器62包括内存621和外部存储器622;这里的内存621也称内存储器,用于暂时存放处理器61中的运算数据,以及与硬盘等外部存储器622交换的数据,处理器61通过内存621与外部存储器622进行数据交换。
上述指令的具体执行过程可以参考本公开实施例中所述的数据处理方法的步骤,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (20)
1.一种数据处理方法,其特征在于,包括:
从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;
响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;其中,在所述PE阵列的每一行包括重复特征元素的情况下,响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到对应处理周期对应的中间处理数据;
其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应;
基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述确定多个处理周期分别对应的目标特征元素以及目标权重元素之前,还包括:
基于所述PE阵列的尺寸,对原始待处理图像特征矩阵以及原始权重矩阵进行尺寸变换,得到所述待处理图像特征矩阵、以及所述权重矩阵。
3.根据权利要求1或2所述的数据处理方法,其特征在于,所述多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;
所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
4.根据权利要求1所述的数据处理方法,其特征在于,所述利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据,包括:
在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
5.根据权利要求1或2所述的数据处理方法,其特征在于,所述PE阵列的每一列包括重复特征元素;
响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并
将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
6.根据权利要求5所述的数据处理方法,其特征在于,所述利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据,包括:
在对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
7.根据权利要求3所述的数据处理方法,其特征在于,所述PE阵列的每个PE包括重复特征元素;
响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据,包括:
响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标图像特征元素复制到其他的PE中,作为对应PE的第一个操作数;
将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
8.根据权利要求1或2所述的数据处理方法,其特征在于,所述基于多个所述处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据,包括:
将多个处理周期中分别对应的中间处理数据中,属于同一权重矩阵的中间子数据进行累加,得到各个权重矩阵对应的子结果数据;
基于多个权重矩阵分别对应的子结果数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
9.根据权利要求1或2所述的数据处理方法,其特征在于,任一处理周期对应的预设运算,包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
10.一种数据处理装置,其特征在于,包括:控制器以及处理引擎PE阵列;
所述控制器用于从待处理图像特征矩阵以及权重矩阵中,确定多个处理周期分别对应的目标特征元素以及目标权重元素;其中,所述待处理图像特征矩阵对应多个权重矩阵;
所述PE阵列用于响应于任一处理周期到来,所述PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据;基于多个处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据;其中,在所述PE阵列的每一行包括重复特征元素的情况下,所述PE阵列响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列行数个目标特征元素传输至所述PE阵列中的一列PE中,并将所述一列PE中的目标特征元素复制到其他列的PE中,作为对应PE的第一个操作数;并将与每一列PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到对应处理周期对应的中间处理数据;
其中,针对任一处理周期,所述PE阵列中的目标特征元素包括重复特征元素,以及该重复特征元素分别与不同权重矩阵中与该重复特征元素对应的目标权重元素相对应。
11.根据权利要求10所述数据处理装置,其特征在于,所述控制器,在确定多个处理周期分别对应的目标特征元素以及目标权重元素之前,还用于:
基于所述PE阵列的尺寸,对原始待处理图像特征矩阵以及原始权重矩阵进行尺寸变换,得到所述待处理图像特征矩阵、以及所述权重矩阵。
12.根据权利要求10或11所述数据处理装置,其特征在于,所述多个处理周期分别对应的目标特征元素,包括所述待处理图像特征矩阵中的至少一个图像特征元素;
所述多个处理周期分别对应的目标权重元素,包括多个所述权重矩阵中至少部分权重矩阵中与对应处理周期处理的目标特征元素位置对应的权重元素。
13.根据权利要求10所述数据处理装置,其特征在于,所述PE阵列,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时,用于:
在所述对应处理周期中,将所述第一个操作数中的每列目标特征元素、和所述第二个操作数中的每列权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
14.根据权利要求10或11所述的数据处理装置,其特征在于,所述PE阵列的每一列包括重复特征元素;
所述PE阵列,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中所述PE阵列列数个目标特征元素传输至所述PE阵列中的一行PE中,并将所述一行PE中的目标特征元素复制到其他行的PE中,作为对应PE的第一个操作数;并
将与每一行PE中目标特征元素分别对应的来自不同权重矩阵的权重元素传输至所述PE阵列中与目标特征元素位置对应的PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
15.根据权利要求14所述的数据处理装置,其特征在于,所述PE阵列,在利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据时用于:
在所述对应处理周期中,将所述第一个操作数中的每行目标特征元素、和所述第二个操作数中的每行权重元素进行加权求和,得到所述不同权重矩阵对应的中间子数据;
基于所述不同权重矩阵对应的中间数据,得到所述对应处理周期对应的中间处理数据。
16.根据权利要求12所述的数据处理装置,其特征在于,所述PE阵列的每个PE包括重复特征元素;
所述PE阵列,在响应于任一处理周期到来,处理引擎PE阵列中的每个PE获取该处理周期对应的目标特征元素以及对应的目标权重元素并进行预设运算,得到中间处理数据时,用于:
响应于任一处理周期到来,将所述待处理图像特征矩阵中的一个目标特征元素传输至所述PE阵列中的一个PE中,并将所述一个PE中的目标图像特征元素复制到其他的PE中,作为对应PE的第一个操作数;
将与该一个目标特征元素对应的来自所述PE阵列中所有PE个数的权重矩阵的权重元素传输至所述PE阵列的各PE中,作为对应PE的第二个操作数;
利用所述PE阵列对所述PE阵列中存储的第一个操作数以及第二个操作数进行预设运算,得到所述对应处理周期对应的中间处理数据。
17.根据权利要求10或11所述的数据处理装置,其特征在于,所述PE阵列,在基于多个所述处理周期分别对应的中间处理数据,得到对所述待处理图像特征矩阵进行处理的结果数据时,用于:
将多个处理周期中分别对应的中间处理数据中,属于同一权重矩阵的中间子数据进行累加,得到各个权重矩阵对应的子结果数据;
基于多个权重矩阵分别对应的子结果数据,得到对所述待处理图像特征矩阵进行处理的结果数据。
18.根据权利要求10或11所述的数据处理装置,其特征在于,任一处理周期对应的预设运算,包括:对所述待处理图像特征矩阵进行全连接运算的子运算。
19.一种计算机设备,其特征在于,包括:处理器、存储器、以及如权利要求10-18任一项所述的数据处理装置。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被控制器以及所述PE阵列运行时执行如权利要求1至9任一项所述的数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221235.3A CN112966729B (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法、装置、计算机设备及存储介质 |
PCT/CN2021/115789 WO2022179075A1 (zh) | 2021-02-26 | 2021-08-31 | 一种数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221235.3A CN112966729B (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966729A CN112966729A (zh) | 2021-06-15 |
CN112966729B true CN112966729B (zh) | 2023-01-31 |
Family
ID=76275794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221235.3A Active CN112966729B (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112966729B (zh) |
WO (1) | WO2022179075A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966729B (zh) * | 2021-02-26 | 2023-01-31 | 成都商汤科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN113253336B (zh) * | 2021-07-02 | 2021-10-01 | 深圳市翩翩科技有限公司 | 一种基于深度学习的地震预测方法和*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229645A (zh) * | 2017-04-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 卷积加速和计算处理方法、装置、电子设备及存储介质 |
CN108805275A (zh) * | 2017-06-16 | 2018-11-13 | 上海兆芯集成电路有限公司 | 可编程设备及其操作方法和计算机可用介质 |
CN109635944A (zh) * | 2018-12-24 | 2019-04-16 | 西安交通大学 | 一种稀疏卷积神经网络加速器及实现方法 |
US10489479B1 (en) * | 2016-09-12 | 2019-11-26 | Habana Labs Ltd. | Matrix multiplication engine |
CN110705687A (zh) * | 2019-09-05 | 2020-01-17 | 北京三快在线科技有限公司 | 卷积神经网络硬件计算装置及方法 |
CN111095241A (zh) * | 2017-07-24 | 2020-05-01 | 特斯拉公司 | 加速数学引擎 |
CN111414994A (zh) * | 2020-03-03 | 2020-07-14 | 哈尔滨工业大学 | 一种基于FPGA的Yolov3网络计算加速***及其加速方法 |
CN111582467A (zh) * | 2020-05-14 | 2020-08-25 | 上海商汤智能科技有限公司 | 人工智能加速器和电子设备 |
CN111897579A (zh) * | 2020-08-18 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
WO2020264264A1 (en) * | 2019-06-28 | 2020-12-30 | Amazon Technologies, Inc. | Dilated convolution using systolic array |
CN112214727A (zh) * | 2017-07-07 | 2021-01-12 | 华为技术有限公司 | 运算加速器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447037B (zh) * | 2015-10-08 | 2019-02-12 | 上海兆芯集成电路有限公司 | 具有多个可选择输出的神经网络单元 |
CN106250103A (zh) * | 2016-08-04 | 2016-12-21 | 东南大学 | 一种卷积神经网络循环卷积计算数据重用的*** |
WO2018071546A1 (en) * | 2016-10-11 | 2018-04-19 | The Research Foundation For The State University Of New York | System, method, and accelerator to process convolutional neural network layers |
US10515302B2 (en) * | 2016-12-08 | 2019-12-24 | Via Alliance Semiconductor Co., Ltd. | Neural network unit with mixed data and weight size computation capability |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速*** |
CN110659445B (zh) * | 2018-06-29 | 2022-12-30 | 龙芯中科技术股份有限公司 | 一种运算装置及其处理方法 |
CN109740115A (zh) * | 2019-01-08 | 2019-05-10 | 郑州云海信息技术有限公司 | 一种实现矩阵乘法运算的方法、装置及设备 |
CN112149047A (zh) * | 2019-06-27 | 2020-12-29 | 深圳市中兴微电子技术有限公司 | 数据的处理方法及装置、存储介质和电子装置 |
CN111967582B (zh) * | 2020-08-07 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种cnn卷积层运算方法及cnn卷积层运算加速器 |
CN112966729B (zh) * | 2021-02-26 | 2023-01-31 | 成都商汤科技有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-02-26 CN CN202110221235.3A patent/CN112966729B/zh active Active
- 2021-08-31 WO PCT/CN2021/115789 patent/WO2022179075A1/zh unknown
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10489479B1 (en) * | 2016-09-12 | 2019-11-26 | Habana Labs Ltd. | Matrix multiplication engine |
CN108229645A (zh) * | 2017-04-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 卷积加速和计算处理方法、装置、电子设备及存储介质 |
CN108805275A (zh) * | 2017-06-16 | 2018-11-13 | 上海兆芯集成电路有限公司 | 可编程设备及其操作方法和计算机可用介质 |
CN112214727A (zh) * | 2017-07-07 | 2021-01-12 | 华为技术有限公司 | 运算加速器 |
CN111095241A (zh) * | 2017-07-24 | 2020-05-01 | 特斯拉公司 | 加速数学引擎 |
CN109635944A (zh) * | 2018-12-24 | 2019-04-16 | 西安交通大学 | 一种稀疏卷积神经网络加速器及实现方法 |
WO2020264264A1 (en) * | 2019-06-28 | 2020-12-30 | Amazon Technologies, Inc. | Dilated convolution using systolic array |
CN110705687A (zh) * | 2019-09-05 | 2020-01-17 | 北京三快在线科技有限公司 | 卷积神经网络硬件计算装置及方法 |
CN111414994A (zh) * | 2020-03-03 | 2020-07-14 | 哈尔滨工业大学 | 一种基于FPGA的Yolov3网络计算加速***及其加速方法 |
CN111582467A (zh) * | 2020-05-14 | 2020-08-25 | 上海商汤智能科技有限公司 | 人工智能加速器和电子设备 |
CN111897579A (zh) * | 2020-08-18 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
Non-Patent Citations (9)
Title |
---|
"A Survey of Accelerator Architectures for Deep Neural Networks";YiranChen等;《Engineering》;20200331;第6卷(第3期);264-274 * |
"High Throughput Matrix-Matrix Multiplication between Asymmetric Bit-Width Operands";Dibakar Gope等;《Machine Learning》;20200803;1-6 * |
"Search-free Inference Acceleration for Sparse Convolutional Neural Networks";Bosheng Liu等;《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 》;20210101;1-6 * |
"Structured Weight Matrices-Based Hardware Accelerators in Deep Neural Networks: FPGAs and ASICs";Caiwen Ding等;《arXiv:1804.11239v1 》;20180528;1-6 * |
"Systolic Array Based Accelerator and Algorithm Mapping for Deep Learning Algorithms";Yang, Z 等;《NPC 2018: Network and Parallel Computing》;20181230;第 11276 卷;153–158 * |
"分段式高精度隧道洞外亮度测量方法研究";常亮等;《电子产品可靠性与环境试验》;20190820;第37卷(第04期);65-72 * |
"卷积神经网络加速器的实现与优化";孙凡;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190115(第(2019)01期);I138-1895 * |
"基于Spark平台的网络攻击检测***";龚剑敏 等;《电脑知识与技术》;20210205;第17卷(第04期);44-45 * |
"深度神经网络硬件加速研究";张祖扬;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200115(第(2020)01期);I137-85 * |
Also Published As
Publication number | Publication date |
---|---|
WO2022179075A1 (zh) | 2022-09-01 |
CN112966729A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109003132B (zh) | 广告推荐方法及相关产品 | |
US11341399B2 (en) | Reducing power consumption in a neural network processor by skipping processing operations | |
CN110050267B (zh) | 用于数据管理的***和方法 | |
EP3407266B1 (en) | Artificial neural network calculating device and method for sparse connection | |
CN111310050B (zh) | 一种基于多层注意力的推荐方法 | |
CN110738324B (zh) | 深度学习***和用于深度学习***的处理数据的方法 | |
CN111915001B (zh) | 卷积计算引擎、人工智能芯片以及数据处理方法 | |
WO2014062265A2 (en) | Neural processing engine and architecture using the same | |
CN112966729B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN107944545B (zh) | 应用于神经网络的计算方法及计算装置 | |
JP2022541721A (ja) | 効率的な乗算のための代替数字形式をサポートするシステムおよび方法 | |
CN111353598A (zh) | 一种神经网络压缩方法、电子设备及计算机可读介质 | |
US11120328B1 (en) | Systems and methods for reducing power consumption of convolution operations for artificial neural networks | |
WO2021218037A1 (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN112967172A (zh) | 一种数据处理装置、方法、计算机设备及存储介质 | |
CN114003198B (zh) | 内积处理部件、任意精度计算设备、方法及可读存储介质 | |
CN110490317B (zh) | 神经网络运算装置及运算方法 | |
CN115424114A (zh) | 图像处理方法及装置、图像处理模型的训练方法及装置 | |
JP7251354B2 (ja) | 情報処理装置、情報処理プログラム、及び情報処理方法 | |
CN114298329A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
US20200409663A1 (en) | Neural processing element with single instruction multiple data (simd) compute lanes | |
CN111382835A (zh) | 一种神经网络压缩方法、电子设备及计算机可读介质 | |
KR20210014897A (ko) | 인공 신경망을 위한 행렬 연산기 및 행렬 연산 방법 | |
CN112784206A (zh) | winograd卷积运算方法、装置、设备及存储介质 | |
US11983128B1 (en) | Multidimensional and multiblock tensorized direct memory access descriptors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40049195 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |