CN110245756A - 用于处理数据组的可编程器件及处理数据组的方法 - Google Patents
用于处理数据组的可编程器件及处理数据组的方法 Download PDFInfo
- Publication number
- CN110245756A CN110245756A CN201910516213.2A CN201910516213A CN110245756A CN 110245756 A CN110245756 A CN 110245756A CN 201910516213 A CN201910516213 A CN 201910516213A CN 110245756 A CN110245756 A CN 110245756A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- summation circuit
- programming device
- bucket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03K—PULSE TECHNIQUE
- H03K19/00—Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits
- H03K19/02—Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components
- H03K19/173—Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components
- H03K19/177—Logic circuits, i.e. having at least two inputs acting on one output; Inverting circuits using specified components using elementary logic circuits as components arranged in matrix form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
- G06F7/505—Adding; Subtracting in bit-parallel fashion, i.e. having a different digit-handling circuit for each denomination
- G06F7/509—Adding; Subtracting in bit-parallel fashion, i.e. having a different digit-handling circuit for each denomination for multiple operands, e.g. digital integrators
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Advance Control (AREA)
- Image Processing (AREA)
- Logic Circuits (AREA)
Abstract
提供了一种用于处理数据组的可编程器件及处理数据组的方法,所述可编程器件包括:多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储所述流水线加法器计算结果的一个缓存单元;以及多路复用器,用于依次接收所述数据组中的数据,动态地确定包含在所述数据中的多个特征与所述多个累加电路之间的对应关系,并根据所述对应关系将所接收数据中的多个特征的特征值分别发送到对应的累加电路。
Description
技术领域
本发明涉及一种用于处理数据组的可编程器件和一种处理数据组的方法。
背景技术
随着机器学习算法的发展,在机器学习算法(例如,梯度回归决策树GBDT)的具体实现中,处理节点***是其中大量消耗运行时间的步骤,GBDT算法的总体运行时间取决于此。在例如直方图算法的处理节点***的诸多算法中,流水线优化是一种在硬件加速中常见的并行优化方法。流水线优化将一个复杂的处理操作切分为多个步骤,通过在不同步骤上重叠操作,使得多个操作可以并行地加以执行,从而大大的提升了整个程序的运行速度,也有效地提高了硬件资源的利用效率。
在现有技术中,为了将GBDT直方图算法中的累加操作进行流水线优化,通常采用累加器来解决因流水线优化而带来的数据依赖(数据冲突)问题。然而,由于资源(例如,大于2万个独立的累加需求)和精度(例如,64位double双精度浮点数)的限制,在GBDT直方图算法的硬件加速实现中,无法直接使用专门的累加器来执行累加操作。因此,采用专门的累加器来执行累加操作的优化方法是受限的。
发明内容
本发明的目的在于提供一种用于处理数据组的可编程器件和一种处理数据组的方法。
本发明的一方面提供了一种用于处理数据组的可编程器件,所述可编程器件包括:多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储流水线加法器计算结果的一个缓存单元;以及多路复用器,用于依次接收数据组中的数据,动态地确定包含在所述数据中的多个特征与多个累加电路之间的对应关系,并根据对应关系将所接收数据中的多个特征的特征值分别发送到对应的累加电路。
可选地,每个累加电路中的流水线加法器可以用于从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值,可以将所接收到的特征值累加到读取的累加值上得到新的累加值,并且可以用新的累加值更新对应缓存单元中的相应累加值。
可选地,可编程器件还可以包括:输出单元,用于将各累加电路中的各缓存单元中的与同一特征的同一分桶对应的累加值进行求和,并输出与各特征的各分桶对应的各最终累加值。
可选地,累加电路的数量可以与数据组中的数据所包含的特征的数量相同。
可选地,累加电路的数量可以小于数据组中的数据所包含的特征的数量,或者,累加电路的数量可以大于数据组中的数据所包含的特征的数量。
可选地,多路复用器可以用于根据所接收的数据在数据组中的序号及所接收数据中的各特征的序号,动态地确定包含在所接收数据中的多个特征与多个累加电路之间的对应关系。
可选地,数据可以包括指示所包含的各特征值所分别对应的特征的特征标签和指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以用于根据所接收到的特征值对应的特征标签和分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
可选地,数据可以包括指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以用于根据多路复用器的动态确定对应关系的控制逻辑和所接收到的特征值对应的分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
可选地,流水线加法器可以为单精度加法器或双精度加法器。
可选地,数据组可以是特定应用场景下的用于进行机器学习的样本数据集;可编程器件可以用于对样本数据集执行梯度回归决策树GBDT直方图算法处理。
可选地,可编程器件是现场可编程门阵列FPGA。
本发明的另一方面提供了一种基于可编程器件处理数据组的方法,所述方法包括:在可编程器件中设置多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储流水线加法器计算结果的一个缓存器;以及在可编程器件中设置多路复用器,多路复用器接收数据组中的每个数据,动态地确定所述数据包含的多个特征与多个累加电路之间的对应关系,并且在每个时段期间根据对应关系将多个特征中的每个特征的特征值发送到对应的累加电路。
可选地,每个累加电路中的流水线加法器可以从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值,可以将所接收到的特征值累加到读取的累加值上得到新的累加值,并且可以用新的累加值更新对应缓存单元中的相应累加值。
可选地,所述方法还可以包括:在可编程器件中设置输出单元,将各累加电路中的各缓存单元中的与同一特征的同一分桶对应的累加值进行求和,并输出与各特征的各分桶对应的各最终累加值。
可选地,所述方法可以设置所述累加电路的数量与所述数据组中的数据所包含的特征的数量相同。
可选地,所述方法可以设置所述累加电路的数量小于所述数据组中的数据所包含的特征的数量,或者,可以设置所述累加电路的数量大于所述数据组中的数据所包含的特征的数量。
可选地,多路复用器根据所接收的数据在数据组中的序号及所接收数据中的各特征的序号,动态地确定包含在所接收数据中的多个特征与多个累加电路之间的对应关系。
可选地,在所述方法中,数据可以包括指示所包含的各特征值所分别对应的特征的特征标签和指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以根据所接收到的特征值对应的特征标签和分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
可选地,在所述方法中,数据可以包括指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以根据所述多路复用器的动态确定所述对应关系的控制逻辑和所接收到的特征值对应的分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
可选地,在所述方法中,所述流水线加法器为单精度加法器或双精度加法器。
可选地,在所述方法中,数据组可以是特定应用场景下的用于进行机器学习的样本数据集;可编程器件可以用于对样本数据集执行梯度回归决策树GBDT直方图算法处理。
可选地,在所述方法中,可编程器件是现场可编程门阵列FPGA。
根据本发明的一个或多个方面,通过多路复用器动态地确定包含在所接收数据中的多个特征与多个累加电路之间的对应关系,避免/减少累加电路对特定特征的特征值进行累加期间再次被分配到同一特征的情况,从而避免/减少数据冲突的产生。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1示出了根据发明构思的使用由流水线加法器和缓存器生成的累加电路的框图;
图2中示出了根据发明构思通过累加电路来执行累加操作的时序图的示意图;
图3示出了根据发明构思的实施例的用于处理数据组的可编程器件的框图;
图4示出了根据发明构思的实施例的可编程器件的累加电路与数据的特征之间的对应关系的示意图;
图5示出了根据发明构思的实施例的用于处理数据组的方法的流程图;以及
图6示出了根据发明构思的另一实施例的用于处理数据组的方法的流程图。
具体实施方式
下面参照附图详细描述本发明的实施例。
为了解决累加器在资源和精度上的限制,本申请的发明人采用加法器(例如,单精度加法器或双精度加法器)和缓存器(例如,Block RAM)配合来生成累加电路。
图1示出了根据发明构思在硬件加速中使用由加法器和缓存器生成的累加电路的框图。GBDT的直方图优化算法是指:在训练前预先把特征值转化为bin,也就是对每个特征的取值做个分段函数,将所有样本在该特征上的取值划分到某一段(bin)中。最终把特征取值从连续值转化成了离散值。举例来说:对于年龄这个特征的取值进行分桶,如分成5个桶:0~20岁、20~40岁、40~60岁、60~80岁、80~100岁。对于其中的任一个桶,如对于20~40岁这个桶,累加所有数据的年龄特征落入20~40岁的特征值,得到累加值x(或累加后得到平均年龄值为x),然后对于年龄特征的真实取值落入20~40岁这个桶的数据,将其年龄特征的取值替换为x。由于每个数据都会包含多个特征,且多个特征需要分别进行直方图构建,因此可以给每个特征分配一个累加电路以保证能够同时并行地处理所有特征的直方图构建。然而,由于加法器和缓存器的特性,在某些用于加速的硬件(例如,FPGA器件)上每个累加操作可能会产生例如多个时钟周期的延时。
图2中示出了通过累加电路来执行累加操作的时序图的示意图。参照图2,加法器在加载时段(加载信号高电平)从缓存器中读取数据,并在此后的若干时钟周期期间对数据执行累加操作,在累加操作执行结束后,加法器响应于高电平的存储信号将累加后的新数据存储到缓存器中。由于上一次的累加结果还没有被写入缓存器而导致无法进行下一个累加操作,所以不可避免地引入了大量的数据依赖,因而导致流水线停顿。在一些情况下,这样的延时可以多达14时钟周期。换言之,加法器每运行一个时钟周期将会被迫停顿13个时钟周期,并因此造成流水线的效率和吞吐量下降。对此,本申请的发明人进一步提出了图3所示的方案。
图3示出了根据发明构思的实施例的用于处理数据组的可编程器件的框图。
如图3所示,根据发明构思的用于处理数据组的可编程器件包括多个累加电路AC和多路复用器MUX,其中,每个累加电路AC包括一个流水线加法器SA和用于存储流水线加法器SA计算结果的一个缓存单元BUF。多路复用器MUX可以用于依次接收数据组中的数据,动态地确定包含在所述数据中的多个特征与多个累加电路AC之间的对应关系,并根据对应关系将所接收数据中的多个特征的特征值分别发送到对应的累加电路AC。在具体的实施例中,可编程器件可以是现场可编程门阵列(FPGA)。
在实施例中,所述数据组可以是特定应用场景下的用于进行机器学习的样本数据集。其中,机器学习算法可以是需要处理大量数据并对精度有特定要求的机器学习算法。例如,可编程器件可以用于对样本数据集执行梯度回归决策树GBDT直方图算法处理。直方图算法的基本理念是把特征值进行预装箱处理,从而在计算***时只需要考虑直方图分桶来选择划分点。相对于预排序算法,直方图算法显著的降低了内存的消耗,有助于提高训练的速度。
在根据发明构思的可编程器件中,流水线加法器SA可以作为流水线电路来进行操作。在流水线电路中,由多个不同功能的电路单元组成一条指令处理流水线,然后将一条指令分成多步(例如,4-6步)后再由这些电路单元分别执行,这样流水线电路就能实现在每个时钟周期都可以获得一个新的输入。在经过初始的延时后,流水线电路每个时钟周期都可以生成一个新的输出。流水线电路并没有减少单个数据运算的时间,却大大增加了吞吐量,使得硬件利用率高,从而降低了硬件资源的需求。
每个累加电路中的流水线加法器SA从对应缓存单元BUF中读取所接收到的特征值所属的分桶对应的累加值,将所接收到的特征值累加到读取的累加值上得到新的累加值,并用新的累加值更新对应缓存单元BUF中的相应累加值(参见图2中)。累加电路的数量可以由可用硬件资源决定,数据组中的数据所包含的特征的数量可以根据情况不同地进行设置(例如,由数据的种类决定和/或由用户决定)。可编程器件可以通过同一硬件资源(例如,相同数量的累加电路)处理多种数据和/或多种用户数据。在实施例中,累加电路AC的数量可以小于数据组中的数据所包含的特征的数量,在这种情况下,累加电路AC中的一些将被复用。在另一实施例中,累加电路AC的数量可以与数据组中的数据所包含的特征的数量相同以确保可以同时并行地处理所有特征。在又一实施例中,累加电路AC的数量可以大于数据组中的数据所包含的特征的数量。
在发明构思的实施例中,数据组中的数据可以包括指示所包含的各特征值所分别对应的特征的特征标签和指示所包含的各特征值所对应的分桶的分桶标签。在这种情况下,每个累加电路AC中的流水线加法器SA可以根据所接收到的特征值对应的特征标签和分桶标签,从对应缓存单元BUF中读取所接收到的特征值所属的分桶对应的累加值。
在发明构思的另一实施例中,数据组中的数据可以仅包括指示所包含的各特征值所对应的分桶的分桶标签。在这种情况下,每个累加电路AC中的流水线加法器SA可以根据多路复用器的动态确定对应关系的控制逻辑和所接收到的特征值对应的分桶标签,从对应缓存单元BUF中读取所接收到的特征值所属的分桶对应的累加值。
在实施例中,流水线加法器SA可以为单精度加法器或双精度加法器。应该理解的是,根据资源和精度上的需求,可以对流水线加法器SA的类型进行各种修改而不脱离发明构思的范围。
通过多路复用器动态地确定多个特征与多个累加电路AC之间的是对应关系能够最大程度的避免连续的同一特征落到同一个分桶上,从而避免/减少数据冲突的产生。
在实施例中,多路复用器MUX可以根据所接收的数据在数据组中的序号及所接收数据中的各特征的序号动态地确定包含在所接收数据中的多个特征与多个累加电路AC之间的对应关系。将随后参照图4对这一特征进行更详细的描述。
根据发明构思的另一实施例,用于处理数据组的可编程器件还可以包括输出单元(未示出)。输出单元可以用于将各累加电路AC中的各缓存单元BUF中的与同一特征的同一分桶对应的累加值进行求和,并输出与各特征的各分桶对应的各最终累加值。
图4示出了根据发明构思的实施例的可编程器件的累加电路AC与数据的特征之间的对应关系的示意图。
下面将参照图4给出多路复用器MUX根据所接收的数据在数据组中的序号及所接收数据中的各特征的序号动态地确定包含在所接收数据中的多个特征与多个累加电路AC之间的对应关系的具体描述。
为描述方便,不妨假设:(1)累加电路AC做加法操作的时间延迟是4个时钟周期(包括缓存单元BUF读取数据、做加法、再用加法的结果更新缓存单元BUF的时间段);(2)每条数据包含4个特征:特征a、特征b、特征c、特征d(例如,数据1包含特征f1a、f1b、f1c、f1d,数据2包含特征f2a、f2b、f2c、f2d,以此类推)。
参照图3和图4,累加电路1至累加电路4均由一个流水线加法器SA和一个缓存单元BUF构成。虽然完成一个加法操作需要4个时钟周期,但是因其为流水线电路,故流水线加法器SA每个时钟都可以在没有数据依赖的情况下开始处理一个加法操作。缓存单元BUF可以是在每个时钟周期最多执行一个存储和一个加载操作的双端口存储器。
参照图4,在本实施例中,由于假设数据的特征的数量为4个,因此设置了4个累加电路(累加电路1至累加电路4),即,累加电路的数量与数据所包含的特征的数量相同。
多路复用器按时间顺序依次接收数据,而每条数据包括4个特征(例如,在图4中的第一个时钟周期接收数据1的特征f1a、f1b、f1c、f1d,在第二时钟周期接收数据2的特征f2a、f2b、f2c、f2d……),通过设置多路复用器的数据选择端的控制逻辑实现如上图所示的特征与累加电路的对应关系。更详细地说,在第一时钟周期期间,累加电路1对应f1a、累加电路2对应f1b、累加电路3对应f1c、累加电路4对应f1d;在第二时钟周期期间,累加电路1对应f2b、累加电路2对应f2c、累加电路3对应f2d、累加电路4对应f2a……。换言之,每当数据的序号增加1时,与累加电路对应的特征的序号向左循环移动1个位置。
需要说明的是,这里描述的累加电路的数量、特征的数量以及累加电路与特征的对应关系仅是为了方便说明。容易理解的是,根据具体的实施例,数据的特征的数量可以多于4,例如,200~300或更多。累加电路的数量可以与特征的数量相等。在另一实施例中,累加电路的数量可以大于或小于特征的数量。累加电路与特征的对应关系可以根据具体实施例进行各种修改。
通过多路复用器MUX的动态确定对应关系的控制逻辑,避免/减少累加电路对特定特征的特征值进行累加期间再次被分配到同一特征的情况,从而避免/减少数据冲突的产生。
在实施例中,数据可以包括特征标签和分桶标签,累加电路根据特征标签和分桶标签从缓存单元BUF读取所接收到的特征值所属的分桶对应的累加值。
在另一实施例中,数据可以仅包括分桶标签,累加电路根据多路复用器的数据选择端的逻辑和分桶标签从缓存单元BUF读取所接收到的特征值所属的分桶对应的累加值。
参照图4,由于每个累加电路会参与计算全部特征的全部分桶的累加计算,因此每个缓存单元BUF(累加电路与缓存单元一一对应)均包括全部特征以及他们的分桶。因此,输出单元(未示出)可以将各累加电路对应的缓存单元中的对应同一特征的同一分桶的累加值进行求和,得到最终的累加值。
图5示出了根据发明构思的实施例的用于处理数据组的方法的流程图。
在根据发明构思的实施例中,基于可编程器件处理数据组的方法包括:
在步骤S100中,在可编程器件中设置多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储流水线加法器计算结果的一个缓存器;
在步骤S200中,在可编程器件中设置多路复用器,多路复用器接收数据组中的每个数据,动态地确定数据包含的多个特征与多个累加电路之间的对应关系,并且在每个时段期间根据对应关系将多个特征中的每个特征的特征值发送到对应的累加电路。
在根据发明构思的方法中,流水线加法器为单精度加法器或双精度加法器。
在根据发明构思的方法中,可编程器件可以是现场可编程门阵列(FPGA);数据组可以是特定应用场景下的用于进行机器学习的样本数据集;可编程器件可以用于对样本数据集执行梯度回归决策树GBDT直方图算法处理。所述方法可以设置累加电路的数量与数据组中的数据所包含的特征的数量相同,或者可以设置累加电路的数量大于或小于数据组中的数据所包含的特征的数量。这里描述的数据组和可编程器件以及累加电路的数量与数据所包含的特征的数量之间的关系与参照图3描述的那些相同或相似,因此,在此省略冗余的描述。
在根据发明构思的方法中,数据可以包括指示所包含的各特征值所分别对应的特征的特征标签和指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以根据所接收到的特征值对应的特征标签和分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
在根据发明构思的方法中,数据可以仅包括指示所包含的各特征值所对应的分桶的分桶标签;每个累加电路中的流水线加法器可以根据所述多路复用器的动态确定所述对应关系的控制逻辑和所接收到的特征值对应的分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
在实施例中,每个累加电路中的流水线加法器从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值,将所接收到的特征值累加到读取的累加值上得到新的累加值,并用新的累加值更新对应缓存单元中的相应累加值。这里描述的流水线加法器和缓存单元与参照图3描述的流水线加法器SA与缓存单元BUF相同或相似,因此,在此省略冗余的描述。
在实施例中,多路复用器根据所接收的数据在数据组中的序号及所接收数据中的各特征的序号,动态地确定包含在所接收数据中的多个特征与多个累加电路之间的对应关系。这里描述的多路复用器与参照图3和图4描述的多路复用器MUX相同或相似,因此,在此省略冗余的描述。
图6示出了根据发明构思的另一实施例的用于处理数据组的方法的流程图。
除了步骤S300之外,图6示出的方法与图5示出的方法基本相同或相似,因此,在此省略冗余的描述。
在步骤S300中,在可编程器件中设置输出单元,将各累加电路中的各缓存单元中的与同一特征的同一分桶对应的累加值进行求和,并输出与各特征的各分桶对应的各最终累加值。
在根据本发明的实施例的用于处理数据组的可编程器件及处理数据组的方法中,在硬件加速开发中,可以精确地控制和使用流水线加法器和缓存单元。本发明根据机器学习算法的特性,设计出适合于机器学习算法的缓存使用逻辑,减少或消除了数据冲突的可能性,从而极大的提高了流水线的执行效率。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种用于处理数据组的可编程器件,所述可编程器件包括:
多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储所述流水线加法器计算结果的一个缓存单元;以及
多路复用器,用于依次接收所述数据组中的数据,动态地确定包含在所述数据中的多个特征与所述多个累加电路之间的对应关系,并根据所述对应关系将所接收数据中的多个特征的特征值分别发送到对应的累加电路。
2.根据权利要求1所述的可编程器件,其中,
所述每个累加电路中的所述流水线加法器从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值,将所接收到的特征值累加到读取的所述累加值上得到新的累加值,并用所述新的累加值更新对应缓存单元中的相应累加值。
3.根据权利要求2所述的可编程器件,所述可编程器件还包括:
输出单元,用于将各累加电路中的各缓存单元中的与同一特征的同一分桶对应的累加值进行求和,并输出与各特征的各分桶对应的各最终累加值。
4.根据权利要求1所述的可编程器件,其中,所述累加电路的数量与所述数据组中的数据所包含的特征的数量相同。
5.根据权利要求1所述的可编程器件,其中,所述累加电路的数量小于所述数据组中的数据所包含的特征的数量,或者,所述累加电路的数量大于所述数据组中的数据所包含的特征的数量。
6.根据权利要求1所述的可编程器件,其中,
所述多路复用器根据所接收的数据在所述数据组中的序号及所接收数据中的各特征的序号,动态地确定包含在所接收数据中的多个特征与所述多个累加电路之间的对应关系。
7.根据权利要求2所述的可编程器件,其中,所述数据中包括指示所包含的各特征值所分别对应的特征的特征标签和指示所包含的各特征值所对应的分桶的分桶标签;
所述每个累加电路中的所述流水线加法器根据所接收到的特征值对应的特征标签和分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
8.根据权利要求2所述的可编程器件,其中,所述数据中包括指示所包含的各特征值所对应的分桶的分桶标签;
所述每个累加电路中的所述流水线加法器根据所述多路复用器的动态确定所述对应关系的控制逻辑和所接收到的特征值对应的分桶标签,从对应缓存单元中读取所接收到的特征值所属的分桶对应的累加值。
9.根据权利要求1所述的可编程器件,其中,所述流水线加法器为单精度加法器或双精度加法器。
10.一种基于可编程器件处理数据组的方法,所述方法包括:
在可编程器件中设置多个累加电路,其中,每个累加电路包括一个流水线加法器和用于存储所述流水线加法器计算结果的一个缓存器;以及
在可编程器件中设置多路复用器,所述多路复用器接收所述数据组中的每个数据,动态地确定所述数据包含的多个特征与所述多个累加电路之间的对应关系,并且在每个时段期间根据所述对应关系将所述多个特征中的每个特征的特征值发送到对应的累加电路。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910516213.2A CN110245756B (zh) | 2019-06-14 | 2019-06-14 | 用于处理数据组的可编程器件及处理数据组的方法 |
US17/619,142 US11791822B2 (en) | 2019-06-14 | 2020-06-12 | Programmable device for processing data set and method for processing data set |
PCT/CN2020/095907 WO2020249106A1 (zh) | 2019-06-14 | 2020-06-12 | 用于处理数据组的可编程器件及处理数据组的方法 |
EP20821819.8A EP3985498B1 (en) | 2019-06-14 | 2020-06-12 | Programmable device for processing data set, and method for processing data set |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910516213.2A CN110245756B (zh) | 2019-06-14 | 2019-06-14 | 用于处理数据组的可编程器件及处理数据组的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245756A true CN110245756A (zh) | 2019-09-17 |
CN110245756B CN110245756B (zh) | 2021-10-26 |
Family
ID=67887157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910516213.2A Active CN110245756B (zh) | 2019-06-14 | 2019-06-14 | 用于处理数据组的可编程器件及处理数据组的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11791822B2 (zh) |
EP (1) | EP3985498B1 (zh) |
CN (1) | CN110245756B (zh) |
WO (1) | WO2020249106A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020249106A1 (zh) * | 2019-06-14 | 2020-12-17 | 第四范式(北京)技术有限公司 | 用于处理数据组的可编程器件及处理数据组的方法 |
TWI740761B (zh) * | 2020-01-21 | 2021-09-21 | 大陸商上海商湯智能科技有限公司 | 數據處理裝置、人工智能晶片 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149374A (zh) * | 1994-04-20 | 1997-05-07 | 汤姆森消费电子有限公司 | 利用恒定位率编码器的多路复用*** |
US7826581B1 (en) * | 2004-10-05 | 2010-11-02 | Cypress Semiconductor Corporation | Linearized digital phase-locked loop method for maintaining end of packet time linearity |
CN203966104U (zh) * | 2014-07-23 | 2014-11-26 | 中国电子科技集团公司第五十八研究所 | 可配置可扩展的流水线乘累加器 |
US20160026607A1 (en) * | 2014-07-25 | 2016-01-28 | Qualcomm Incorporated | Parallelization of scalar operations by vector processors using data-indexed accumulators in vector register files, and related circuits, methods, and computer-readable media |
CN106250614A (zh) * | 2016-07-29 | 2016-12-21 | 上海交通大学 | 适用于fpga平台电磁暂态实时仿真的数据处理方法 |
CN108108150A (zh) * | 2017-12-19 | 2018-06-01 | 北京云知声信息技术有限公司 | 乘累加运算方法及装置 |
CN108133262A (zh) * | 2016-12-01 | 2018-06-08 | 上海兆芯集成电路有限公司 | 具有用于执行高效3维卷积的存储器布局的神经网络单元 |
CN109543816A (zh) * | 2018-09-20 | 2019-03-29 | 中国科学院计算技术研究所 | 一种基于权重捏合的卷积神经网络计算方法和*** |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI96256C (fi) * | 1993-04-05 | 1996-05-27 | Tapio Antero Saramaeki | Menetelmä ja järjestely transponoidussa digitaalisessa FIR-suodattimessa binäärisen sisääntulosignaalin kertomiseksi tappikertoimilla sekä menetelmä transponoidun digitaalisen suodattimen suunnittelemiseksi |
CN1215665C (zh) * | 2001-07-24 | 2005-08-17 | 凌源通讯股份有限公司 | 相位解调器、符号时序回复电路及其方法 |
CN101950250B (zh) * | 2010-09-29 | 2012-10-31 | 中国科学院光电技术研究所 | 基于累加器的哈特曼-夏克波前斜率获取方法及处理器 |
CN102033732B (zh) * | 2010-12-17 | 2012-07-18 | 浙江大学 | 基于fpga的高速低延迟浮点累加器及其实现方法 |
KR101949294B1 (ko) * | 2012-07-24 | 2019-02-18 | 삼성전자주식회사 | 영상의 히스토그램 축적 계산 장치 및 방법 |
US9684509B2 (en) * | 2013-11-15 | 2017-06-20 | Qualcomm Incorporated | Vector processing engines (VPEs) employing merging circuitry in data flow paths between execution units and vector data memory to provide in-flight merging of output vector data stored to vector data memory, and related vector processing instructions, systems, and methods |
CN104102470A (zh) * | 2014-07-23 | 2014-10-15 | 中国电子科技集团公司第五十八研究所 | 可配置可扩展的流水线乘累加器 |
US10480954B2 (en) * | 2017-05-26 | 2019-11-19 | Uber Technologies, Inc. | Vehicle routing guidance to an authoritative location for a point of interest |
RU2666303C1 (ru) * | 2017-12-14 | 2018-09-06 | Открытое Акционерное Общество "Информационные Технологии И Коммуникационные Системы" | Способ и устройство для вычисления хэш-функции |
CN110245756B (zh) * | 2019-06-14 | 2021-10-26 | 第四范式(北京)技术有限公司 | 用于处理数据组的可编程器件及处理数据组的方法 |
-
2019
- 2019-06-14 CN CN201910516213.2A patent/CN110245756B/zh active Active
-
2020
- 2020-06-12 EP EP20821819.8A patent/EP3985498B1/en active Active
- 2020-06-12 US US17/619,142 patent/US11791822B2/en active Active
- 2020-06-12 WO PCT/CN2020/095907 patent/WO2020249106A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1149374A (zh) * | 1994-04-20 | 1997-05-07 | 汤姆森消费电子有限公司 | 利用恒定位率编码器的多路复用*** |
US7826581B1 (en) * | 2004-10-05 | 2010-11-02 | Cypress Semiconductor Corporation | Linearized digital phase-locked loop method for maintaining end of packet time linearity |
CN203966104U (zh) * | 2014-07-23 | 2014-11-26 | 中国电子科技集团公司第五十八研究所 | 可配置可扩展的流水线乘累加器 |
US20160026607A1 (en) * | 2014-07-25 | 2016-01-28 | Qualcomm Incorporated | Parallelization of scalar operations by vector processors using data-indexed accumulators in vector register files, and related circuits, methods, and computer-readable media |
CN106250614A (zh) * | 2016-07-29 | 2016-12-21 | 上海交通大学 | 适用于fpga平台电磁暂态实时仿真的数据处理方法 |
CN108133262A (zh) * | 2016-12-01 | 2018-06-08 | 上海兆芯集成电路有限公司 | 具有用于执行高效3维卷积的存储器布局的神经网络单元 |
CN108108150A (zh) * | 2017-12-19 | 2018-06-01 | 北京云知声信息技术有限公司 | 乘累加运算方法及装置 |
CN109543816A (zh) * | 2018-09-20 | 2019-03-29 | 中国科学院计算技术研究所 | 一种基于权重捏合的卷积神经网络计算方法和*** |
Non-Patent Citations (1)
Title |
---|
MATEUS BECK FONSECA: "Design of pipelined butterflies from Radix-2 FFT with Decimation in Time algorithm using efficient adder compressors", 《2011 IEEE SECOND LATIN AMERICAN SYMPOSIUM ON CIRCUITS AND SYSTEMS (LASCAS)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020249106A1 (zh) * | 2019-06-14 | 2020-12-17 | 第四范式(北京)技术有限公司 | 用于处理数据组的可编程器件及处理数据组的方法 |
US11791822B2 (en) | 2019-06-14 | 2023-10-17 | The Fourth Paradigm (Beijing) Tech Co Ltd | Programmable device for processing data set and method for processing data set |
TWI740761B (zh) * | 2020-01-21 | 2021-09-21 | 大陸商上海商湯智能科技有限公司 | 數據處理裝置、人工智能晶片 |
Also Published As
Publication number | Publication date |
---|---|
US20220149843A1 (en) | 2022-05-12 |
CN110245756B (zh) | 2021-10-26 |
EP3985498A1 (en) | 2022-04-20 |
EP3985498B1 (en) | 2023-04-05 |
EP3985498A4 (en) | 2022-08-03 |
US11791822B2 (en) | 2023-10-17 |
WO2020249106A1 (zh) | 2020-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378468B (zh) | 一种基于结构化剪枝和低比特量化的神经网络加速器 | |
KR101959376B1 (ko) | 멀티 코어 최적화된 순환 신경망을 위한 시스템 및 방법 | |
US10872290B2 (en) | Neural network processor with direct memory access and hardware acceleration circuits | |
CN109409510B (zh) | 神经元电路、芯片、***及其方法、存储介质 | |
CN111414994B (zh) | 一种基于FPGA的Yolov3网络计算加速***及其加速方法 | |
CN106127302A (zh) | 处理数据的电路、图像处理***、处理数据的方法和装置 | |
CN111062472A (zh) | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 | |
US11669443B2 (en) | Data layout optimization on processing in memory architecture for executing neural network model | |
JP7087825B2 (ja) | 学習装置および学習方法 | |
KR20130090147A (ko) | 신경망 컴퓨팅 장치 및 시스템과 그 방법 | |
JP7035827B2 (ja) | 学習識別装置および学習識別方法 | |
CN113361695B (zh) | 卷积神经网络加速器 | |
CN113220450A (zh) | 面向云端多数据中心的负载预测方法、资源调度方法及装置 | |
CN110245756A (zh) | 用于处理数据组的可编程器件及处理数据组的方法 | |
JP7095479B2 (ja) | 学習装置および学習方法 | |
CN113313247B (zh) | 基于数据流架构的稀疏神经网络的运算方法 | |
CN110765710A (zh) | 基于非易失器件的通用逻辑综合方法及装置 | |
CN109800872B (zh) | 一种基于分段复用和参数量化共享的神经形态处理器 | |
US7734456B2 (en) | Method and apparatus for priority based data processing | |
JP2021015523A (ja) | 学習装置および学習方法 | |
Fan et al. | Fast sparse gpu kernels for accelerated training of graph neural networks | |
CN115309502A (zh) | 一种容器调度方法及装置 | |
CN112906877A (zh) | 用于执行神经网络模型的存储器架构中的数据布局有意识处理 | |
JP2020077067A (ja) | 学習装置および学習方法 | |
CN110866597B (zh) | 数据处理电路和数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |