CN110490312B

CN110490312B - 一种池化计算方法和电路

Info

Publication number: CN110490312B
Application number: CN201910617795.3A
Authority: CN
Inventors: 廖裕民; 黄镜灵
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-12-17
Anticipated expiration: 2039-07-10
Also published as: CN110490312A

Abstract

本发明提供了一种池化计算方法和电路，所述方法通过列处理读控制单元从所述图像缓存单元中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并依次对划分后的列窗口数据进行比较组装，从而完成待处理图像矩阵列的池化操作，而后再根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，从而完成待处理图像矩阵行的池化操作。采用上述方法可以十分高效地实现池化运算加速操作，提升池化运算的加速效率,大幅提升神经网络的计算速度。

Description

一种池化计算方法和电路

技术领域

本发明涉及电子设备领域，特别涉及一种池化计算方法和电路。

背景技术

随着人工智能深度学习神经网络的快速发展,人们对人工智能应用的需求越来越强烈。由于深度学习神经网络自身的特性对硬件资源的要求较高,在运行时将产生巨大的功耗，导致电子设备续航能力差、功耗大等问题。而池化技术作为神经网络运算过程中最重要的计算之一,目前的神经网络加速电路往往将池化运算交给CPU或者GPU等通用计算单元进行,由于其计算量巨大且控制复杂,造成池化计算往往成为整体神经网络运算的瓶颈。

发明内容

为此，需要提供一种池化计算的技术方案，用以解决池化运算计算量大、控制复杂，导致在运行过程中功耗大的问题。

为实现上述目的，发明人提供了一种池化计算电路，包括图像缓存单元、列处理读控制单元、列窗口缓存单元、列处理比较单元、列处理结果组装单元、行缓存单元、行处理读控制单元、行处理比较单元、行处理结果缓存单元、回写控制单元；

所述列处理读控制单元用于从所述图像缓存单元中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并将划分后的列窗口数据存储至列窗口缓存单元中；

所述列处理比较单元用于根据预设比较规则依次比较列窗口缓存单元中的划分后的列窗口数据，并将各个比较结果依次传输至列处理结果组装单元进行组装，并将组装数据写入行缓存单元中；

所述行处理读控制单元用于从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元；

所述行处理比较单元用于根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，并将行处理比较结果写入行处理结果缓存单元中；

所述回写控制单元用于将行处理结果回写至图像缓存单元中。

进一步地，所述行处理读控制单元用于从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：

所述行处理读控制单元用于在所述行缓存单元中组装数据的行数达到预设行处理窗大小时，将当前行缓存单元中的组装数据传输至行处理比较单元。

进一步地，还包括算法配置单元，所述算法配置单元用于配置所述列处理比较单元和行处理比较单元对应的预设比较规则。

进一步地，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；

所述列处理读控制单元用于从所述图像缓存单元中读取待处理图像矩阵包括：列处理读控制单元依次读取待处理图像矩阵中的各个子块数据，并根据预设列窗口大小以及列移动步进值将读取到的子块数据，发送至相应的列缓存器中进行存储。

进一步地，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；

所述行处理读控制单元用于依次读取行缓存单元中的各行中的位于同一列的行数据，并根据预设行窗口大小以及行移动步进值将读取到的行数据发送至相应的行缓存器中进行存储。

发明人还提供了一种池化计算方法，所述方法应用于池化计算电路，所述电路包括图像缓存单元、列处理读控制单元、列窗口缓存单元、列处理比较单元、列处理结果组装单元、行缓存单元、行处理读控制单元、行处理比较单元、行处理结果缓存单元、回写控制单元；所述方法包括以下步骤：

列处理读控制单元从所述图像缓存单元中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并将划分后的列窗口数据存储至列窗口缓存单元中；

列处理比较单元根据预设比较规则依次比较列窗口缓存单元中的划分后的列窗口数据，并将各个比较结果依次传输至列处理结果组装单元进行组装，并将组装数据写入行缓存单元中；

行处理读控制单元从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元；

行处理比较单元根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，并将行处理比较结果写入行处理结果缓存单元中；

回写控制单元将行处理结果回写至图像缓存单元中。

进一步地，行处理读控制单元从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：

行处理读控制单元在所述行缓存单元中组装数据的行数达到预设行处理窗大小时，将当前行缓存单元中的组装数据传输至行处理比较单元。

进一步地，还包括算法配置单元，所述方法包括：算法配置单元配置所述列处理比较单元和行处理比较单元对应的预设比较规则。

进一步地，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；所述方法包括：

列处理读控制单元从所述图像缓存单元中读取待处理图像矩阵包括：列处理读控制单元依次读取待处理图像矩阵中的各个子块数据，并根据预设列窗口大小以及列移动步进值将读取到的子块数据，发送至相应的列缓存器中进行存储。

进一步地，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；所述方法包括：

行处理读控制单元依次读取行缓存单元中的各行中的位于同一列的行数据，并根据预设行窗口大小以及行移动步进值将读取到的行数据发送至相应的行缓存器中进行存储。

上述技术方案所述的池化计算方法和电路，所述方法通过列处理读控制单元从所述图像缓存单元中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并依次对划分后的列窗口数据进行比较组装，从而完成待处理图像矩阵列的池化操作，而后再根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，从而完成待处理图像矩阵行的池化操作。采用上述方法可以十分高效地实现池化运算加速操作，提升池化运算的加速效率,大幅提升神经网络的计算速度。

附图说明

图1为本发明一实施例涉及的池化计算电路的示意图；

图2为本发明一实施例涉及的池化计算方法的示意图；

图3为本发明一实施例涉及的待处理图像矩阵的示意图；

图4为本发明一实施例涉及的列处理的示意图；

图5为本发明一实施例涉及的行处理的示意图；

附图标记说明：

101、图像缓存单元；

102、列处理读控制单元；

103、列窗口缓存单元；

104、列处理比较单元；

105、列处理结果组装单元；

106、行缓存单元；

107、行处理读控制单元；

108、行处理比较单元；

109、行处理结果缓存单元；

110、回写控制单元；

111、算法配置单元。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，本发明一实施例涉及的池化计算方法的示意图。所述电路包括图像缓存单元101、列处理读控制单元102、列窗口缓存单元103、列处理比较单元104、列处理结果组装单元105、行缓存单元106、行处理读控制单元107、行处理比较单元108、行处理结果缓存单元109、回写控制单元110；

所述列处理读控制单元102用于从所述图像缓存单元101中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并将划分后的列窗口数据存储至列窗口缓存单元103中。

所述图像缓存单元101为具有图像缓存功能的存储器，如DDR。神经网络是基于图像块来处理数据的，所述待处理图像矩阵为从DDR获取的图像块数据，如图3所示，为一个7x7的图像块，当然在另一些实施例中，所述图像块还可以是其他大小的。

所述预设列处理窗的大小可以根据实际需要进行设定，具体可以是1至待处理图像矩阵的列数。例如预设列处理窗的大小为3列，则7x7的图像块的第一行可以分为子块123、子块234、子块345、子块456、子块567共计5个列处理窗。

优选的，所述列窗口缓存单元为列窗口缓存器组，所述列窗口缓存器组包括多个列窗口缓存器，所述列窗口缓存器的数量与列处理窗的数量相同，每一列窗口缓存器用于缓存一列处理窗的数据。

所述列处理比较单元104用于根据预设比较规则依次比较列窗口缓存单元中的划分后的列窗口数据，并将各个比较结果依次传输至列处理结果组装单元进行组装，并将组装数据写入行缓存单元中。

在本实施方式中，预设比较规则为预先配置的比较规则，包括最大池化或最小池化规则，最大池化规则是指将列窗口内各个子块对应的数值中最大的一个作为比较结果输出；最小池化规则是指将列窗口内各个子块对应的数值中最小的一个作为比较结果输出。

例如对于7x7的待处理图像矩阵，第一行子块包括子块1至子块7，假设列处理窗的大小为3，预设比较规则是最大池化规则，那么待处理图像矩阵中的第一行经过后，比较结果将是子块123中的最大值、子块234中的最大值、子块345中的最大值、子块456中的最大值、子块567中的最大值共计5个数值，依次对待处理图像矩阵中的各行进行列处理后，将得到7x5图像矩阵。

所述行处理读控制单元107用于从行缓存单元106中读取组装数据，并将组装数据传至行处理比较单元108。所述组装数据可以是经过列处理后的某两行或三行的数据，也可以是列处理全部完成后的数据。

所述行处理比较单元108用于根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，并将行处理比较结果写入行处理结果缓存单元109中；

所述回写控制单元110用于将行处理结果回写至图像缓存单元中。例如7x7的待处理图像矩阵经过列处理后得到7x5的图像矩阵，再经过行处理(假设行处理窗的大小为3)将得到5x5的图像矩阵，回写控制单元会将上述5x5图像矩阵回写至DDR中，从而完成当前待处理图像矩阵的池化操作，而后可以获取DDR中的下一个7x7的图像矩阵，开始下一步的处理操作。

在某些实施例中，所述行处理读控制单元用于从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：所述行处理读控制单元用于在所述行缓存单元中组装数据的行数达到预设行处理窗大小时，将当前行缓存单元中的组装数据传输至行处理比较单元。例如预设行处理窗的大小为两行，当7x7图像矩阵完成第一列中的第一行和第二行的列处理后，就可以将处理后的第一列第一行以及第一列第二行的数据发送至行处理比较单元中，行处理比较单元接收到上述两者数据后，筛选出两者中值较大或较小(根据最大池化规则或最小池化规则确定)的那个作为当前行处理窗内的行处理结果。这样，列处理和行处理可以并行处理，有效提升处理效率。

在某些实施例中，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；

如图4所示，假设列窗口的大小为3，待处理图像矩阵为7x7块，当对待处理图像矩阵中的第一行数据进行处理时，由于列窗口123、234、345中均包含有第一行第三列的数据，因而在列窗口读控制单元读取到第一行第三列的数据后，将分别发送给列窗口缓存器1、2、3进行缓存，读取其他行其他列数据时的方式同理可得，这样可以提升数据读取缓存效率。列窗口缓存器中缓存的数据将会依次传输给对应的串行比较器，串行比较器会根据预设比较规则留下传输给其的所有数据中数值最大的一个或者数值最小的一个，当同一行的每个列窗口都可以完成后，则完成该行的列处理运算，当每一行的列窗口均完成其对应的列处理运算后，则完成当前待处理像素矩阵的列处理运算。

在某些实施例中，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；

如图5所示，假设行窗口的高度为3，步进值为1，那么对于7x7子块而言，同一列行窗口的数量为5，经过行处理后将得到5x5的子块；假设行窗口的高度值为3，步进值为2，那么第一列第一行至第一列第七行由上至下可以分为123、345、567共计3个行处理窗，那么经过行处理后将得到3x5子块作为输出结果(假设列窗口的步进值仍为1)。

如图2所示，发明人还提供了一种池化计算方法，所述方法应用于池化计算电路，所述电路包括图像缓存单元、列处理读控制单元、列窗口缓存单元、列处理比较单元、列处理结果组装单元、行缓存单元、行处理读控制单元、行处理比较单元、行处理结果缓存单元、回写控制单元；所述方法包括以下步骤：

首先进入步骤S201列处理读控制单元从所述图像缓存单元中读取待处理图像矩阵，根据预设列处理窗大小对待处理图像矩阵的每一行进行划分，并将划分后的列窗口数据存储至列窗口缓存单元中；

而后进入步骤S202列处理比较单元根据预设比较规则依次比较列窗口缓存单元中的划分后的列窗口数据，并将各个比较结果依次传输至列处理结果组装单元进行组装，并将组装数据写入行缓存单元中；

而后进入步骤S203行处理读控制单元从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元；

而后进入步骤S204行处理比较单元根据预设比较规则，依次对组装数据矩阵中位于同一列的预设行处理窗大小的数据进行比较，并将行处理比较结果写入行处理结果缓存单元中；

而后进入步骤S205回写控制单元将行处理结果回写至图像缓存单元中。

在本实施方式中，行处理读控制单元从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：

在本实施方式中，还包括算法配置单元，所述方法包括：算法配置单元配置所述列处理比较单元和行处理比较单元对应的预设比较规则。

在本实施方式中，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；所述方法包括：

在本实施方式中，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；所述方法包括：

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种池化计算电路，其特征在于，包括图像缓存单元、列处理读控制单元、列窗口缓存单元、列处理比较单元、列处理结果组装单元、行缓存单元、行处理读控制单元、行处理比较单元、行处理结果缓存单元、回写控制单元；

所述回写控制单元用于将行处理结果回写至图像缓存单元中；所述行处理读控制单元用于从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：

2.如权利要求1所述的池化计算电路，其特征在于，还包括算法配置单元，所述算法配置单元用于配置所述列处理比较单元和行处理比较单元对应的预设比较规则。

3.如权利要求1所述的池化计算电路，其特征在于，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；

4.如权利要求1所述的池化计算电路，其特征在于，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；

5.一种池化计算方法，其特征在于，所述方法应用于池化计算电路，所述电路包括图像缓存单元、列处理读控制单元、列窗口缓存单元、列处理比较单元、列处理结果组装单元、行缓存单元、行处理读控制单元、行处理比较单元、行处理结果缓存单元、回写控制单元；所述方法包括以下步骤：

回写控制单元将行处理结果回写至图像缓存单元中；

行处理读控制单元从行缓存单元中读取组装数据，并将组装数据传至行处理比较单元包括：

6.如权利要求5所述的池化计算方法，其特征在于，还包括算法配置单元，所述方法包括：算法配置单元配置所述列处理比较单元和行处理比较单元对应的预设比较规则。

7.如权利要求5所述的池化计算方法，其特征在于，所述列窗口缓存单元包括多个列缓存器，所述列处理比较单元包括多个列比较器，所述列缓存器的数量与列比较器的数量一一对应，所述列比较器的数量根据预设列窗口大小以及列移动步进值确定；所述方法包括：

8.如权利要求5所述的池化计算方法，其特征在于，所述行处理结果缓存单元包括多个行缓存器，所述行处理比较单元包括多个行比较器，所述行缓存器的数量与行比较器的数量一一对应，所述行比较器的数量根据预设行窗口大小以及行移动步进值确定；所述方法包括：