CN103369326B - 适于高性能视频编码标准hevc的变换编码器 - Google Patents

适于高性能视频编码标准hevc的变换编码器 Download PDF

Info

Publication number
CN103369326B
CN103369326B CN201310283390.3A CN201310283390A CN103369326B CN 103369326 B CN103369326 B CN 103369326B CN 201310283390 A CN201310283390 A CN 201310283390A CN 103369326 B CN103369326 B CN 103369326B
Authority
CN
China
Prior art keywords
data
coefficient
eeeo
achieve
try
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310283390.3A
Other languages
English (en)
Other versions
CN103369326A (zh
Inventor
李甫
樊春晓
牛毅
石光明
齐飞
周蕾蕾
张犁
宋晓丹
焦丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201310283390.3A priority Critical patent/CN103369326B/zh
Publication of CN103369326A publication Critical patent/CN103369326A/zh
Application granted granted Critical
Publication of CN103369326B publication Critical patent/CN103369326B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种适于高性能视频编码标准HEVC的变换编码器,主要解决现有技术中乘法器使用过多,电路复杂的问题。其包括:一维DCT模块(1)、转置缓冲模块(2)和顶层控制模块(3),其中一维DCT模块(1)采用多个蝶形运算单元与多个奇系数处理单元完成HEVC标准中的各种DCT变换,该奇系数处理单元,通过将复杂的乘法操作分解至多级电路并使用移位器、加法器和减法器实现,即使用多级移位器、加法器和减法器替代矩阵乘法器,以简化电路结构。本发明具有结构简单规整,复用度高,关键路径短,时钟频率高,易于集成的优点,可在不使用乘法器的情况下高效地实现对视频残差数据的变换编码。

Description

适于高性能视频编码标准HEVC的变换编码器
技术领域
本发明属于电子电路技术领域,具体涉及视频压缩编码标准HEVC中的变换编码器结构,可应用于超大规模集成电路设计。
背景技术
众所周知,随着电子信息产业的不断发展,数字视频技术的应用已经变得日益广泛。然而,随着图像分辨率的不断提升,其对应的数据量也随之增大。这些海量数据与硬盘容量和信道容量间的矛盾也显得日益突出。因而,高数据率、大数据量问题对现有的压缩算法提出了巨大的挑战,成为了扩展高分辨率视频应用领域的一大瓶颈。如何在不损失或者尽量不损失信息的情况下减少数据量已经成为人们正在研究的问题。因此,许多图像视频压缩算法被人们相继提出。
其中,HEVC作为最新的视频压缩编码标准,其采用了很多高效的图像压缩算法。相对于H.264视频压缩编码标准,它采用了更精细的树状分块结构,使得图像的分块更加精细;而且基本块的大小也由H.264中采用的16×16增大到64×64,使其更适于大图像的压缩。然而在获得更高的压缩效率的同时,其对应的运算复杂度也大大增加。随着基本块大小的提升,HEVC变换单元的大小也随之增大,其需支持4×4、8×8、16×16和32×32四种DCT变换,使得其对应电路中的乘法器个数急剧增大,变换电路变得十分复杂,成为硬件实现的一个难点。因而,设计一个高效的变换编码器显得十分重要。
目前为止,为了减少变换编码模块中的乘法器个数,降低变换编码模块的复杂度,已提出的变换编码结构主要有以下两种:
第一种是在HEVC测试模型中采用的部分蝶形与矩阵乘法器相结合的结构,其利用了变换编码中基矩阵的对称性,减少了3倍的乘法器个数。该结构由四个蝶形结构和四个矩阵乘法器构成。其中,蝶形结构由一系列加法器和减法器组成,在蝶形结构之后,运算被分成两个部分,偶数部分和奇数部分,该奇数部分通过复用变换块大小更小的变换电路来完成计算,该偶数部分则是使用矩阵乘法器进行计算。虽然该结构已经经过优化,但是其矩阵乘法器中乘法器的个数依然很多,不易硬件实现。
第二种是西安电子科技大学提出的专利申请“适于HEVC标准的变换编码器”(专利申请号201210251115.9,公开号CN102857756A)。该发明公布了一种适于HEVC标准的变换编码器,主要用于解决部分蝶形与矩阵乘法器相结合结构中乘法器使用过多的问题。该结构包括一维DCT/DST模块、转置缓冲模块和顶层控制单元。其中,一维DCT/DST模块结合蝶形结构和矩阵乘法阵列,完成HEVC的各种变换编码;转置缓冲模块利用寄存器间的路径延迟和存储器不同的存储和读取顺序,完成变换数据的转置操作;顶层控制单元产生一维DCT/DST模块和转置缓冲模块的复位和使能信号,控制各模块协调工作。但该结构中的一维变换模块依然要使用48个乘法器,其电路结构较复杂,不利于硬件高效实现,且其在实现较大块的变换编码时所需要的时钟周期也比较长。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种适于高性能视频编码标准HEVC的变换编码器,以降低电路结构的复杂度,减少变换编码时所需要的时钟周期,易于硬件实现,满足HEVC编码标准的高性能实现要求。
实现本发明目的技术思路是:通过对部分蝶形与矩阵乘法器相结合结构中的矩阵乘法操作进行分解,将其复杂的乘法操作分解至多级电路完成,即由简单的移位器和加法器完成操作,使得每一级电路的运算复杂度大大降低,从而缩短关键路径,提高变换编码电路的时钟频率和编码效率,最终得到一个不包含乘法器的适于高性能视频编码标准HEVC的变换编码器。
根据上述思路,本发明的变换编码器包括:一维DCT模块、转置缓冲模块和顶层控制模块,该一维DCT模块的数据输出端与转置缓冲模块的数据输入端相连,数据输入端与转置缓冲模块的数据输出端相连;该顶层控制模块分别与一维DCT模块的复位端、使能端以及转置缓冲模块的复位端、使能端相连,其特征在于:
所述一维DCT模块,包括:
32点蝶形运算单元,用于完成对输入的待变换系数两两相加和两两相减的操作,并将相加操作得到的16个数据输入给16点蝶形运算单元,将相减操作得到的16个数据输入给32点奇系数处理单元;
16点蝶形运算单元,用于完成对32点蝶形运算单元输入的16个数据两两相加和两两相减的操作,并将相加得到的8个数据输入给8点蝶形运算单元,将相减得到的8个数据输入给16点奇系数处理单元;
32点奇系数处理单元,用于求出由32点蝶形运算单元输入的16个数据与这16个数据自身左移后系数的和,并按16组不同的移位次数将求和结果分别进行移位、相加、相减,求得16个变换数据,并输入给转置缓冲模块;
8点蝶形运算单元,用于完成对16点蝶形运算单元输入的8个数据两两相加和两两相减的操作,并将相加得到的4个数据输入给4点蝶形运算单元,将相减得到的4个数据输入给8点奇系数处理单元;
16点奇系数处理单元,用于求出由16点蝶形运算单元输入的8个数据与这8个数据自身左移后系数的和,并按8组不同的移位次数将求和结果分别进行移位、相加、相减,求得8个变换数据,并输入给转置缓冲模块;
4点蝶形运算单元,用于完成对8点蝶形运算单元输入的4个数据两两相加和两两相减,并将相加得到的2个数据输入给4点偶系数处理单元,将相减得到的2个数据输入给4点奇系数处理单元;
8点奇系数处理单元,用于求出由8点蝶形运算单元输入的4个数据与这4个数据自身左移后系数的和,并按4组不同的移位次数将求和结果分别进行移位、相加、相减,求得4个变换数据并输入给转置缓冲模块;
4点偶系数处理单元,用于完成对4点蝶形运算单元输入的2个数据进行延迟,并移位相加、相减的操作,求得2个变换数据并输入给转置缓冲模块;
4点奇系数处理单元,用于求出由4点蝶形运算单元输入的2个数据与这2个数据自身左移后系数的和,并按2组不同的移位次数将求和结果分别进行移位、相加、相减,求得2个变换数据并输入给转置缓冲模块;
复位使能控制单元,与顶层控制模块相连,用于接收顶层控制模块输出的复位和使能信号,并根据复位和使能信号控制一维DCT模块中的各个单元的复位和使能。
本发明与现有技术相比具有以下优点:
第一,本发明采用了统一的变换实现结构,可以使用同一个的编码器电路完成4种不同块大小的DCT变换,从而提高了电路的复用程度,极大的减小了电路规模;
第二,本发明采用的一维DCT模块,通过将复杂的乘法运算分配到多级电路中完成,使用不包含乘法器的奇系数处理单元完成复杂的乘法操作,减小了每一级电路中的复杂度,提高了***时钟频率,更适于硬件实现;
附图说明
图1为本发明变换编码器的总体结构框图;
图2为本发明转置缓冲模块结构示意图;
图3为本发明中一维DCT模块的结构框图;
图4为本发明中32点蝶形运算单元、16点蝶形运算单元、8点蝶形运算单元和4点蝶形运算单元的结构与连接示意图;
图5为本发明中4点偶系数处理单元的结构图;
图6为本发明中4点奇系数处理单元的结构图;
图7为本发明中8点系数相加子单元的结构图;
图8为本发明中16点系数相加子单元的结构图;
图9为本发明中32点系数相加子单元的结构图。
具体实施方式
本发明是对现有HEVC标准中一维变换结构的改进,可以减少每级流水的运算复杂度,提高***时钟,且更易于硬件的并行实现。
下面结合附图和实施例对本发明进行详细说明。
参照图1,本发明的高性能视频编码标准HEVC的变换编码器,由一维DCT模块1、转置缓冲模块2和顶层控制模块3构成,其中顶层控制模块3的输出分为两路,第一路与一维DCT模块1连接,第二路与转置缓冲模块2连接;一维DCT模块1的数据输入端的输入分为两路,第一路与外部的输入数据连接,第二路与转置缓冲模块2的数据输出端连接;一维DCT模块1的数据输出端与转置缓冲模块2的数据输入端连接;转置缓冲模块2的数据输入端与一维DCT模块1的数据输出端连接,转置缓冲模块2的数据输出端的输出分为两路,第一路与一维DCT模块1的数据输入端连接,第二路与外部的输出端连接。其中:
所述顶层控制模块3,包括复位使能模块30和数据流控制模块31,复位使能模块30分别与一维DCT模块1的复位使能控制单元19和转置缓冲模块2的转置复位使能单元20相连,为这两个模块提供使能和复位信号;数据流控制模块31与转置缓冲模块2的地址控制单元22相连,用于产生控制信号,控制转置缓冲模块2的读写方式及读写顺序。该复位使能模块30和数据流控制模块31均由计数器和逻辑电路构成,用于根据计数器的计数状态和当前进行的变换类型,由逻辑电路产生一维DCT模块1的复位、使能和转置缓冲模块2的复位、使能、数据流控制信号,控制一维DCT模块1对变换编码器的输入数据进行一维行变换,并产生控制信号控制转置缓冲模块2接收一维DCT模块1的行变换结果,在所有行数据处理完成之后,控制转置缓冲模块2将转置后的行变换结果输出至一维DCT模块1进行一维列变换。
参照图2,所述转置缓冲模块2,包括转置复位使能单元20、RAM存储器21和地址控制单元22,转置复位使能单元20由逻辑电路构成,用于接收顶层控制模块3发出的复位、使能信号,并产生控制信号控制RAM存储器21和地址控制单元22的复位和使能;RAM存储器21由8个存储器阵列构成,每一个存储器阵列均与一维DCT模块1相连;地址控制单元22与RAM存储器21中每个存储器阵列的地址端相连,用于产生每个存储器的输入输出使能及输入输出地址,实现将一维DCT模块1输入的DCT变换结果分别存入8个存储器阵列中,再按行或按列输出的操作。
所述一维DCT模块1,用于完成HEVC标准中的4点DCT、8点DCT、16点DCT以及32点DCT一维变换,其结构如图3所示。
参照图3,一维DCT模块1,包括32点蝶形运算单元10,16点蝶形运算单元11,32点奇系数处理单元12,8点蝶形运算单元13,16点奇系数处理单元14,4点蝶形运算单元15,8点奇系数处理单元16,4点偶系数处理单元17,4点奇系数处理单元18,复位使能控制单元19,其中:
所述复位使能控制单元19,由逻辑电路构成,其与顶层控制模块3的复位使能单元30和一维DCT模块1的各个单元相连,用于接收顶层控制模块3输出的复位和使能信号,并根据复位和使能信号控制整个一维DCT模块1中的各个单元的复位和使能。
所述32点蝶形运算单元10,由16个加法器和16个减法器构成,这16个加法器与16点蝶形运算单元11相连,这16个减法器与32点奇系数处理单元12相连,如图4所示。
该16个加法器对从一维DCT模块1输入端输入的32个数据进行首尾两两求和,即求得第1个数据与第32数据之和E0,再求第2个数据与第31数据之和E1,如此类推,求得第16个数据与第17个数据之和E15,并将求得的16个相加结果E0~E15输入给16点蝶形运算单元11;
该16个减法器对从一维DCT模块1输入端输入的32个系数进行首尾两两求差,即求得第1个数据与第32数据之差O0,再求得第2个数据与第31数据之差O1,如此类推,求得第16个数据与第17个数据之差O15,并将求得的16个相减结果O0~O15输入给32点奇系数处理单元12。
所述16点蝶形运算单元11,由8个加法器和8个减法器构成,这8个加法器与8点蝶形运算单元13相连,这8个减法器与16点奇系数处理单元14相连,如图4所示。
该8个加法器对由32点蝶形运算单元10输入的数据E0~E15进行首尾两两求和,即求得E0与E15之和EE0,再求得E1与E14之和EE1,如此类推,求得E7与E8之和EE7,并将求得的8个相加结果EE0~EE7输入给8点蝶形运算单元13;
该8个减法器对数据E0~E15进行首尾两两求差,即求得E0与E15之差EO0,再求得E1与E14之差EO1,如此类推,求得E7与E8之差EO7,并将求得的8个相减结果EO0~EO7输入给16点奇系数处理单元14。
所述8点蝶形运算单元13,由4个加法器和4个减法器构成,这4个加法器与4点蝶形运算单元15,这4个减法器与8点奇系数处理单元16相连,如图4所示。
该4个加法器对由16点蝶形运算单元11输入的数据EE0~EE7进行首尾两两求和,即求得EE0与EE7之和EEE0,再求得EE1与EE6之和EEE1,如此类推,求得并EE3与EE4之和EEE3,将求得的4个相加结果EEE0~EEE3输入给4点蝶形运算单元15;
该4个减法器对数据EE0~EE7进行首尾两两求差,即求得EE0与EE7之差EEO0,再求得EE1与EE6之差EEO1,如此类推,求得并,并EE3与EE4之差EEO3将求得的4个相减结果EEO0~EEO3输入给8点奇系数处理单元16。
所述4点蝶形运算单元15,由2个加法器和2个减法器构成,这2个加法器与4点偶系数处理单元17,这2个减法器与4点奇系数处理单元18相连,如图4所示。
该2个加法器用以求得由8点蝶形运算单元13输入的数据EEE0与EEE3之和EEEE0,及输入的数据EEE1与EEE2之和EEEE1,并将求得的这2个相加结果EEEE0、EEEE1输入给4点偶系数处理单元17;
该2个减法器用以求得输入的数据EEE0与EEE3之差EEEO0,及输入的数据EEE1与EEE2之差EEEO1,并将求得的2个相减结果EEEO0、EEEO1输入给4点奇系数处理单元18。
参照图5,所述4点偶系数处理单元17,由延迟子单元170、2点蝶形运算子单元171和移位子单元172构成;
该延迟子单元170,对由4点蝶形运算单元15输入的数据EEEE0与EEEE1进行2个时钟周期的延迟,得到延迟数据EEEE0_0与EEEE1_0,并将这2个数据送入2点蝶形运算子单元171;
该2点蝶形运算子单元171,由1个加法器和1个减法器构成,用于对延迟子单元170输入的延迟数据EEEE0_0与EEEE1_0分别进行相加和相减,得到相加数据EEEEE和相减数据EEEEO送入移位子单元172;
该移位子单元172,由2个移位器构成,用于对由2点蝶形运算子单元171输入的数据EEEEE与EEEEO进行左移6位,并将求得的2个结果系数并输出给转置缓冲模块2。
参照图6,所述4点奇系数处理单元18,由1个4点系数运算子单元180和2个4点系数相加子单元181构成;
该4点系数运算子单元180,由寄存器、移位器和加法器级联构成,用于完成对由4点蝶形运算单元15输入的数据EEEO0、EEEO1进行延迟,得到延迟系数EEEO0_0、EEEO1_0,并分别求得EEEO0与EEEO0,及EEEO1与EEEO1自身左移不同位后的数据之和,即:
求得EEEO0与EEEO0自身左移1位后的数据之和,得到4点的第一求和系数EEEO0_1
求得EEEO1与EEEO1自身左移1位后的数据之和,得到4点的第二求和系数EEEO1_1
求得EEEO0与EEEO0自身左移2位后的数据之和,得到4点的第三求和系数EEEO0_2
求得EEEO1与EEEO1自身左移2位后的数据之和,得到4点的第四求和系数EEEO1_2
再将这些延迟系数及求和系数输入给每个4点系数相加子单元181;
每个4点系数相加子单元181,由移位器、加法器和减法器级联构成,用于求得DCT变换的一个结果系数,即分3级对4点系数运算子单元180输入的两个延迟系数EEEO0_0,EEEO1_0,以及四个求和系数EEEO0_1,EEEO0_2,EEEO1_1,EEEO1_2进行合并,其中:
第1级,同时是对如下三组系数分别进行一次合并:
第一组是将EEEO0_0和EEEO1_0这两个延迟系数分别左移后,再进行相加或相减,得到4点的第1级的第一个合并系数COE4_101
第二组是将EEEO0_1和EEEO1_1这两个求和系数分别左移后,再进行相加或相减,得到4点的第1级的第二个合并系数COE4_102
第三组是将EEEO0_2和EEEO1_2这两个求和系数分别左移后,再进行相加或相减,得到4点的第1级的第三个合并系数COE4_103
第2级是同时对第1级求得的三个合并系数分别进行二次合并:
将4点的第1级的第一个合并系数COE4_101和4点的第1级的第二个合并系数COE4_102分别左移后,再进行相加或相减,得到4点的第2级的第一个合并系数COE4_201
将4点的第1级的第三个合并系数COE4_103进行左移,得到4点的第2级的第二个合并系数COE4_202
第3级是对第2级求得的两个合并系数进行合并,即将4点的第2级的第一个合并系数COE4_201和4点的第2级的第二个合并系数COE4_202分别左移后,再进行相加或相减,得到一个4点的结果系数COEFF4,并将该4点的结果系数COEFF4输出给转置缓冲模块2。
所述8点奇系数处理单元16,由1个8点系数运算子单元160和4个8点系数相加子单元161构成;
该8点系数运算子单元160,由寄存器、移位器和加法器级联构成,用于对8点蝶形运算单元13输入的数据EEO0~EEO3分别进行延迟,得到延迟系数EEO0_0~EEO3_0,并分别求得数据EEO0~EEO3与该数据EEO0~EEO3自身左移不同位后的数据之和,即:
求得EEO0与EEO0自身左移1位后的数据之和,得到8点的第一求和系数EEO0_1
求得EEO1与EEO1自身左移1位后的数据之和,得到8点的第二求和系数EEO1_1
求得EEO2与EEO2自身左移1位后的数据之和,得到8点的第三求和系数EEO2_1
求得EEO3与EEO3自身左移1位后的数据之和,得到8点的第四求和系数EEO3_1
求得EEO0与EEO0自身左移2位后的数据之和,得到8点的第五求和系数EEO0_2
求得EEO1与EEO1自身左移2位后的数据之和,得到8点的第六求和系数EEO1_2
求得EEO2与EEO2自身左移2位后的数据之和,得到8点的第七求和系数EEO2_2
求得EEO3与EEO3自身左移2位后的数据之和,得到8点的第八求和系数EEO3_2
将这八个求和系数送入给每个8点系数相加子单元161;
每个8点系数相加子单元161,由移位器、加法器和减法器级联构成,用于求得DCT变换的一个结果系数,即分4级对由8点系数运算子单元160输入的系数EEO0_0~EEO3_0、EEO0_1~EEO3_1及EEO0_2~EEO3_2进行移位相加或移位相减,其中:
第1级,同时是对如下六组系数分别进行一次合并:
第一组是将EEO0_0和EEO1_0这两个延迟系数分别左移后,再进行相加或相减,得到8点第1级的第一个合并系数COE8_101
第二组是将EEO2_0和EEO3_0这两个延迟系数分别左移后,再进行相加或相减,得到8点第1级的第二个合并系数COE8_102
第三组是将EEO0_1和EEO1_1这两个求和系数分别左移后,再进行相加或相减,得到8点第1级的第三个合并系数COE8_103
第四组是将EEO2_1和EEO3_1这两个求和系数分别左移后,再进行相加或相减,得到8点第1级的第四个合并系数COE8_104
第五组是将EEO0_2和EEO1_2这两个求和系数分别左移后,再进行相加或相减,得到8点第1级的第五个合并系数COE8_105
第六组是将EEO2_2和EEO3_2这两个求和系数分别左移后,再进行相加或相减,得到8点第1级的第六个合并系数COE8_106
第2级,同时是对第1级求得的三组合并系数分别进行二次合并:
第一组是将COE8_101和COE8_102这两个合并系数分别左移后,再进行相加或相减,得到8点第2级的第一个合并系数COE8_201
第二组是将COE8_103和COE8_104这两个合并系数分别左移后,再进行相加或相减,得到8点第2级的第二个合并系数COE8_202
第三组是将COE8_105和COE8_106这两个合并系数分别左移后,再进行相加或相减,得到8点第2级的第三个合并系数COE8_203
第3级是同时对第2级求得的三个合并系数分别进行三次合并:
将8点第2级的第一个合并系数COE8_201和8点第2级的第二个合并系数COE8_202分别左移后,再进行相加或相减,得到8点第3级的第一个合并系数COE8_301
将8点第2级的第三个合并系数COE8_203进行左移,得到8点第3级的第二个合并系数COE8_302
第4级是对第3级求得的两个合并系数进行合并,即将8点第3级的第一个合并系数COE8_301和8点第3级的第二个合并系数COE8_302分别左移后,再进行相加或相减,得到一个8点的结果系数COEFF8,并将该8点的结果系数COEFF8输出给转置缓冲模块2,如图7所示。
所述16点奇系数处理单元14,由1个16点系数运算子单元140和8个16点系数相加子单元141构成;
该16点系数运算子单元140,由寄存器、移位器和加法器级联构成,用于对16点蝶形运算单元11输入的数据EO0~EO7分别进行延迟,得到延迟系数EO0_0~EO7_0,并分别求得延迟系数EO0~EO7与EO0~EO7自身左移不同位后的数据之和,即:
求得数据EO0与EO0自身左移1位后的数据之和,得到16点的第一求和系数EO0_1
求得数据EO1与EO1自身左移1位后的数据之和,得到16点的第二求和系数EO1_1
如此类推;
求得数据EO7与EO7自身左移1位后的数据之和,得到16点的第八求和系数EO7_1
求得数据EO0与EO0自身左移2位后的数据之和,得到16点的第九求和系数EO0_2
求得数据EO1与EO1自身左移2位后的数据之和,得到16点的第十求和系数EO1_2
如此类推;
求得数据EO7与EO7自身左移2位后的数据之和,得到16点的第十六求和系数EO7_2
将这十六个求和系数送入给每个16点系数相加子单元141;
所述16点系数相加子单元141,由移位器、加法器和减法器级联构成,用于求得DCT变换的一个结果系数,即分5级对由16点系数运算子单元140输入的系数EO0_0~EO7_0、EO0_1~EO7_1及EO0_2~EO7_2进行移位相加或移位相减,其中:
第1级,同时是对如下十二组系数分别进行一次合并:
第一组是将EO0_0和EO1_0这两个延迟系数分别左移后,再进行相加或相减,得到16点的第1级的第一个合并系数COE16_101
第二组是将EO2_0和EO3_0这两个延迟系数分别左移后,再进行相加或相减,得到16点的第1级的第二个合并系数COE16_102
第三组是将EO4_0和EO5_0这两个延迟系数分别左移后,再进行相加或相减,得到16点的第1级的第三个合并系数COE16_103
第四组是将EO6_0和EO7_0这两个延迟系数分别左移后,再进行相加或相减,得到16点的第1级的第四个合并系数COE16_104
第五组是将EO0_1和EO1_1这两个求和系数分别左移后,再进行相加或相减,得到16点的第1级的第五个合并系数COE16_105
第六组是将EO2_1和EO3_1这两个求和系数分别左移后,再进行相加或相减,得到16点的第1级的第六个合并系数COE16_106
如此类推;
第十一组是将EO4_2和EO5_2这两个求和系数分别左移后,再进行相加或相减,得到16点的第1级的第十一个合并系数COE16_111
第十二组是将EO6_2和EO7_2这两个求和系数分别左移后,再进行相加或相减,得到16点的第1级的第十二个合并系数COE16_112
第2级,同时是对如下六组系数分别进行二次合并:
第一组是将COE16_101和COE16_102这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第一个合并系数COE16_201
第二组是将COE16_103和COE16_104这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第二个合并系数COE16_202
第三组是将COE16_105和COE16_106这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第三个合并系数COE16_203
第四组是将COE16_107和COE16_108这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第四个合并系数COE16_204
第五组是将COE16_109和COE16_110这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第五个合并系数COE16_205
第六组是将COE16_111和COE16_112这两个合并系数分别左移后,再进行相加或相减,得到16点的第2级的第六个合并系数COE16_206
第3级,同时是对如下三组合并系数分别进行三次合并:
第一组是将COE16_201和COE16_202这两个合并系数分别左移后,再进行相加或相减,得到16点的第3级的第一个合并系数COE16_301
第二组是将COE16_203和COE16_204这两个合并系数分别左移后,再进行相加或相减,得到16点的第3级的第二个合并系数COE16_302
第三组是将COE16_205和COE16_206这两个合并系数分别左移后,再进行相加或相减,得到16点的第3级的第三个合并系数COE16_303
第4级是同时对第3级求得的三个合并系数分别进行四次合并:
将16点的第3级的第一个合并系数COE16_301和16点的第3级的第二个合并系数COE16_302分别左移后,再进行相加或相减,得到16点的第4级的第一个合并系数COE16_401
将16点的第3级的第三个合并系数COE16_303进行左移,得到16点的第4级的第二个合并系数COE16_402
第5级是对第4级求得的两个合并系数进行合并,即将16点的第4级的第一个合并系数COE16_401和16点的第4级的第二个合并系数COE16_402分别左移后,再进行相加或相减,得到一个16点的结果系数COEFF16,并将该16点的结果系数COEFF16输出给转置缓冲模块2,如图8所示。
所述32点奇系数处理单元12,由1个32点系数运算子单元120和16个32点系数相加子单元121构成;
该32点系数运算子单元120,由寄存器、移位器和加法器级联构成,用于对32点蝶形运算单元10输入的数据O0~O15分别进行延迟,得到延迟系数O0_0~O15_0,并分别求得输入数据O0~O15与该O0~O15自身左移不同位后的数据之和,即:
求得O0与O0自身左移1位后的数据之和,得到32点的第一求和系数O0_1
求得O1与O1自身左移1位后的数据之和,得到32点的第二求和系数O1_1
如此类推;
求得O15与O15自身左移1位后的数据之和,得到32点的第十六求和系数O15_1
求得O0与O0自身左移2位后的数据之和,得到32点的第十七求和系数O0_2
求得O1与O1自身左移2位后的数据之和,得到32点的第十八求和系数O1_2
如此类推;
求得O15与O15自身左移2位后的数据之和,得到32点的第三十二求和系数O15_2
求得O0与O0自身左移3位后的数据之和,得到32点的第三十三求和系数O0_3
求得O1与O1自身左移3位后的数据之和,得到32点的第三十四求和系数O1_3
如此类推;
求得O15与O15自身左移3位后的数据之和,得到32点的第四十八求和系数O15_3
将这四十八个求和系数送入给每个32点系数相加子单元121;
每个32点系数相加子单元121,用于求得DCT变换的一个结果系数,该子单元由移位器、加法器和减法器级联构成,分6级对由32点系数运算子单元120输入的系数O0_0~O15_0、O0_1~O15_1、O0_2~O15_2和O0_3~O15_3进行移位相加或移位相减,
其中:
第1级,同时是对如下三十二组系数分别进行一次合并:
第一组是将O0_0和O1_0这两个延迟系数分别左移后,再进行相加或相减,得到32点的第1级的第一个合并系数COE32_101
第二组是将O2_0和O3_0这两个延迟系数分别左移后,再进行相加或相减,得到32点的第1级的第二个合并系数COE32_102
第三组是将O4_0和O5_0这两个延迟系数分别左移后,再进行相加或相减,得到32点的第1级的第三个合并系数COE32_103
如此类推;
第八组是将O14_0和O15_0这两个延迟系数分别左移后,再进行相加或相减,得到32点的第1级的第八个合并系数COE32_108
第九组是将O0_1和O1_1这两个求和系数分别左移后,再进行相加或相减,得到32点的第1级的第九个合并系数COE32_109
第十组是将O2_1和O3_1这两个求和系数分别左移后,再进行相加或相减,得到32点的第1级的第十个合并系数COE32_110
如此类推;
第三十一组是将O12_3和O13_3这两个求和系数分别左移后,再进行相加或相减,得到32点的第1级的第三十一个合并系数COE32_131
第三十二组是将O14_3和O15_3这两个求和系数分别左移后,再进行相加或相减,得到32点的第1级的第三十二个合并系数COE32_132
第2级,同时是对如下十六组系数分别进行二次合并:
第一组是将COE32_101和COE32_102这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第一个合并系数COE32_201
第二组是将COE32_103和COE32_104这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第二个合并系数COE32_202
第三组是将COE32_105和COE32_106这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第三个合并系数COE32_203
第四组是将COE32_107和COE32_108这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第四个合并系数COE32_204
第五组是将COE32_109和COE32_110这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第五个合并系数COE32_205
第六组是将COE32_110和COE32_111这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第六个合并系数COE32_206
如此类推;
第十五组是将COE32_128和COE32_129这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第十五个合并系数COE32_215
第十六组是将COE32_130和COE32_131这两个合并系数分别左移后,再进行相加或相减,得到32点的第2级的第十六个合并系数COE32_216
第3级,同时是对如下八组系数分别进行三次合并:
第一组是将COE32_201和COE32_202这两个合并系数分别左移后,再进行相加或相减,得到32点的第3级的第一个合并系数COE32_301
第二组是将COE32_203和COE32_204这两个合并系数分别左移后,再进行相加或相减,得到32点的第3级的第二个合并系数COE32_302
第三组是将COE32_205和COE32_206这两个合并系数分别左移后,再进行相加或相减,得到32点的第3级的第三个合并系数COE32_303
如此类推;
第七组是将COE32_213和COE32_214这两个合并系数分别左移后,再进行相加或相减,得到32点的第3级的第七个合并系数COE32_307
第八组是将COE32_215和COE32_216这两个合并系数分别左移后,再进行相加或相减,得到32点的第3级的第八个合并系数COE32_308
第4级,同时是对如下四组合并系数分别进行四次合并:
第一组是将COE32_301和COE32_302这两个合并系数分别左移后,再进行相加或相减,得到32点的第4级的第一个合并系数COE32_401
第二组是将COE32_303和COE32_304这两个合并系数分别左移后,再进行相加或相减,得到32点的第4级的第二个合并系数COE32_402
第三组是将COE32_305和COE32_306这两个合并系数分别左移后,再进行相加或相减,得到32点的第4级的第三个合并系数COE32_403
第四组是将COE32_307和COE32_308这两个合并系数分别左移后,再进行相加或相减,得到32点的第4级的第四个合并系数COE32_404
第5级是同时对第4级求得的四个合并系数分别进行五次合并:
将32点的第4级的第一个合并系数COE32_401和32点的第4级的第二个合并系数COE32_402分别左移后,再进行相加或相减,得到32点的第5级的第一个合并系数COE32_501
将32点的第4级的第三个合并系数COE32_403和32点的第4级的第四个合并系数COE32_404分别左移后,再进行相加或相减,得到32点的第5级的第二个合并系数COE32_502
第6级是对第5级求得的两个合并系数进行合并,即将32点的第5级的第一个合并系数COE32_501和32点的第5级的第二个合并系数COE32_502分别左移后,再进行相加或相减,得到一个32点的结果系数COEFF32,并将该32点的结果系数COEFF32输出给转置缓冲模块2,如图9所示。
在上述每个4点系数相加子单元181、8点系数相加子单元161、16点系数相加子单元141和32点系数相加子单元121中的每一级合并中,移位次数与加法器或减法器的选取,是根据实际的需求与实验确定。

Claims (10)

1.一种适于高性能视频编码标准HEVC的变换编码器,包括:一维DCT模块(1)、转置缓冲模块(2)和顶层控制模块(3),该一维DCT模块(1)的数据输出端与转置缓冲模块(2)的数据输入端相连,数据输入端与转置缓冲模块(2)的数据输出端相连;该顶层控制模块(3)分别与一维DCT模块(1)的复位端、使能端以及转置缓冲模块(2)的复位端、使能端相连,其特征在于:
所述一维DCT模块(1),包括:
32点蝶形运算单元(10),由16个加法器和16个减法器构成,分别用于完成对输入的待变换系数两两相加和两两相减的操作,并将相加操作得到的16个数据输入给16点蝶形运算单元(11),将相减操作得到的16个数据输入给32点奇系数处理单元(12);
16点蝶形运算单元(11),由8个加法器和8个减法器构成,分别用于完成对32点蝶形运算单元(10)输入的16个数据两两相加和两两相减的操作,并将相加得到的8个数据输入给8点蝶形运算单元(13),将相减得到的8个数据输入给16点奇系数处理单元(14);
32点奇系数处理单元(12),由1个32点系数运算子单元(120)和16个32点系数相加子单元(121)级联构成,用于求出由32点蝶形运算单元(10)输入的16个数据与这16个数据自身左移后系数的和,并按16组不同的移位次数将求和结果分别进行移位、相加、相减,求得16个变换数据,再输入给转置缓冲模块(2);
8点蝶形运算单元(13),由4个加法器和4个减法器构成,分别用于完成对16点蝶形运算单元(11)输入的8个数据两两相加和两两相减的操作,并将相加得到的4个数据输入给4点蝶形运算单元(15),将相减得到的4个数据输入给8点奇系数处理单元(16);
16点奇系数处理单元(14),由1个16点系数运算子单元(140)和8个16点系数相加子单元(141)级联构成,用于求出由16点蝶形运算单元(11)输入的8个数据与这8个数据自身左移后系数的和,并按8组不同的移位次数将求和结果分别进行移位、相加、相减,求得8个变换数据,并输入给转置缓冲模块(2);
4点蝶形运算单元(15),由2个加法器和2个减法器构成,分别用于完成对8点蝶形运算单元(13)输入的4个数据两两相加和两两相减,并将相加得到的2个数据输入给4点偶系数处理单元(17),将相减得到的2个数据输入给4点奇系数处理单元(18);
8点奇系数处理单元(16),由1个8点系数运算子单元(160)和4个8点系数相加子单元(161)级联构成,用于求出由8点蝶形运算单元(13)输入的4个数据与这4个数据自身左移后系数的和,并按4组不同的移位次数将求和结果分别进行移位、相加、相减,求得4个变换数据并输入给转置缓冲模块(2);
4点偶系数处理单元(17),由延迟子单元(170)、2点蝶形运算子单元(171)和移位子单元(172)级联构成,用于完成对4点蝶形运算单元(15)输入的2个数据进行延迟,并移位相加、相减的操作,求得2个变换数据并输入给转置缓冲模块(2);
4点奇系数处理单元(18),由1个4点系数运算子单元(180)和2个4点系数相加子单元(181)构成,用于求出由4点蝶形运算单元(15)输入的2个数据与这2个数据自身左移后系数的和,并按2组不同的移位次数将求和结果分别进行移位、相加、相减,求得2个变换数据并输入给转置缓冲模块(2);
复位使能控制单元(19),与顶层控制模块(3)相连,用于接收顶层控制模块(3)输出的复位和使能信号,并根据复位和使能信号控制一维DCT模块(1)中的各个单元的复位和使能。
2.根据权利要求1所述的变换编码器,其特征在于:32点蝶形运算单元(10)中的16个加法器对输入数据进行首尾两两求和,并将求得的16个相加结果E0~E15输入给16点蝶形运算单元(11);16个减法器对输入系数进行首尾两两求差,并将求得的16个相减结果O0~O15输入给32点奇系数处理单元(12)。
3.根据权利要求1所述的变换编码器,其特征在于:16点蝶形运算单元(11)中的8个加法器对由32点蝶形运算单元(10)输入的数据E0~E15进行首尾两两求和,并将求得的8个相加结果EE0~EE7输入给8点蝶形运算单元(13);8个减法器对数据E0~E15进行首尾两两求差,并将求得的8个相减结果EO0~EO7输入给16点奇系数处理单元(14)。
4.根据权利要求1所述的变换编码器,其特征在于:32点奇系数处理单元(12)中所述的32点系数运算子单元(120)由寄存器、移位器和加法器级联构成,用于完成对由32点蝶形运算单元(10)输入的数据O0~O15进行延迟得到延迟系数O0_0~O15_0,并求得O0~O15与O0~O15自身左移1位、2位、3位的和O0_1~O15_1、O0_2~O15_2、O0_3~O15_3,将这些系数送入给每个32点系数相加子单元(121);所述的32点系数相加子单元(121),由移位器、加法器和减法器级联构成,用于完成对由32点系数运算子单元(120)输入的系数O0_0~O15_0、O0_1~O15_1、O0_2~O15_2和O0_3~O15_3进行移位相加或移位相减,最终求得1个数据并将其输出给转置缓冲模块(2)。
5.根据权利要求1所述的变换编码器,其特征在于:8点蝶形运算单元(13)中的4个加法器对由16点蝶形运算单元(11)输入的数据EE0~EE7进行首尾两两求和,并将求得的4个相加结果EEE0~EEE3输入给4点蝶形运算单元(15),4个减法器对数据EE0~EE7进行首尾两两求差,并将求得的4个相减结果EEO0~EEO3输入给8点奇系数处理单元(16)。
6.根据权利要求1所述的变换编码器,其特征在于:16点奇系数处理单元(14)中所述的16点系数运算子单元(140),由寄存器、移位器和加法器级联构成,用于完成对由16点蝶形运算单元(11)输入的数据EO0~EO7进行延迟,得到延迟系数EO0_0~EO7_0,并求得EO0~EO7分别与EO0~EO7自身左移1位之和系数EO0_1~EO7_1及EO0~EO7自身左移2位之和系数EO0_2~EO7_2,将这些系数送入给每个16点系数相加子单元(141);所述的16点系数相加子单元(141),由移位器、加法器和减法器级联构成,用于完成对由16点系数运算子单元(140)输入的系数EO0_0~EO7_0、EO0_1~EO7_1及EO0_2~EO7_2进行移位相加或移位相减,最终求得1个数据输出给转置缓冲模块(2)。
7.根据权利要求1所述的变换编码器,其特征在于:4点蝶形运算单元(15)中的2个加法器用以求得由8点蝶形运算单元(13)输入的数据EEE0与EEE3之和EEEE0,及输入的数据EEE1与EEE2之和EEEE1,并将求得的这2个相加结果EEEE0、EEEE1输入给4点偶系数处理单元(17);2个减法器用以求得输入的数据EEE0与EEE3之差EEEO0,及输入的数据EEE1与EEE2之差EEEO1,并将求得2个相减结果EEEO0、EEEO1输入给4点奇系数处理单元(18)。
8.根据权利要求1所述的变换编码器,其特征在于:8点奇系数处理单元(16)中所述的8点系数运算子单元(160),由寄存器、移位器和加法器级联构成,用于完成对由8点蝶形运算单元(13)输入的数据EEO0~EEO3进行延迟,得到延迟系数EEO0_0~EEO3_0,并求得EEO0~EEO3分别与EEO0~EEO3自身左移1位之和系数EEO0_1~EEO3_1及EEO0~EEO3自身左移2位之和系数EEO0_2~EEO3_2,将这些系数送入给每个8点系数相加子单元(161);所述的8点系数相加子单元(161),由移位器、加法器和减法器级联构成,用于完成对由8点系数运算子单元(160)输入的系数EEO0_0~EEO3_0、EEO0_1~EEO3_1及EEO0_2~EEO3_2进行移位相加或移位相减,最终求得1个数据输出给转置缓冲模块(2)。
9.根据权利要求1所述的变换编码器,其特征在于:4点偶系数处理单元(17)中所述的延迟子单元(170),对由4点蝶形运算单元(15)输入的数据EEEE0与EEEE1进行2个时钟周期的延迟,得到延迟数据EEEE0_0与EEEE1_0,并将这2个数据送入2点蝶形运算子单元(171);所述的2点蝶形运算子单元(171),由1个加法器和1个减法器构成,用于对延迟子单元(170)输入的延迟数据EEEE0_0与EEEE1_0分别进行相加和相减,得到相加数据EEEEE和相减数据EEEEO送入移位子单元(172);所述的移位子单元(172),由2个移位器构成,用于对由2点蝶形运算子单元(171)输入的数据EEEEE与EEEEO进行左移,并将求得2个数据输出给转置缓冲模块(2)。
10.根据权利要求1所述的变换编码器,其特征在于:4点奇系数处理单元
(18)中所述的4点系数运算子单元(180),由寄存器、移位器和加法器级联构成,用于完成对由4点蝶形运算单元(15)输入的数据EEEO0、EEEO1进行延迟,得到延迟系数EEEO0_0、EEEO1_0,并分别求得EEEO0与EEEO0,及EEEO1与EEEO1自身左移不同位后的数据之和,即:
求得EEEO0与EEEO0自身左移1位后的数据之和EEEO0_1
求得EEEO1与EEEO1自身左移1位后的数据之和EEEO1_1
求得EEEO0与EEEO0自身左移2位后的数据之和EEEO0_2
求得EEEO1与EEEO1自身左移2位后的数据之和EEEO1_2
将这些系数输入给每个4点系数相加子单元(181);
所述的4点系数相加子单元(181),由移位器、加法器和减法器级联构成,用于对4点系数运算子单元(180)输入的系数EEEO0_0、EEEO1_0、EEEO0_1、EEEO1_1、EEEO0_2和EEEO1_2进行移位相加或移位相减,最终求得1个数据输出给转置缓冲模块(2)。
CN201310283390.3A 2013-07-05 2013-07-05 适于高性能视频编码标准hevc的变换编码器 Expired - Fee Related CN103369326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310283390.3A CN103369326B (zh) 2013-07-05 2013-07-05 适于高性能视频编码标准hevc的变换编码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310283390.3A CN103369326B (zh) 2013-07-05 2013-07-05 适于高性能视频编码标准hevc的变换编码器

Publications (2)

Publication Number Publication Date
CN103369326A CN103369326A (zh) 2013-10-23
CN103369326B true CN103369326B (zh) 2016-06-29

Family

ID=49369731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310283390.3A Expired - Fee Related CN103369326B (zh) 2013-07-05 2013-07-05 适于高性能视频编码标准hevc的变换编码器

Country Status (1)

Country Link
CN (1) CN103369326B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100811B (zh) * 2014-05-14 2018-04-03 北京君正集成电路股份有限公司 一种视频变换的实现方法及装置
CN105791871A (zh) * 2014-12-25 2016-07-20 炬芯(珠海)科技有限公司 一种离散余弦变换dct装置及应用方法
CN106028049B (zh) * 2016-07-06 2018-11-13 电子科技大学 一种二维dct图像处理器
CN107181963B (zh) * 2017-03-31 2019-10-22 武汉斗鱼网络科技有限公司 一种视频压缩方法及装置
CN107027039B (zh) * 2017-04-14 2019-08-27 西安电子科技大学 基于高效视频编码标准的离散余弦变换实现方法
CN109521994B (zh) 2017-09-19 2020-11-10 华为技术有限公司 乘法硬件电路、片上***及电子设备
CN108184127B (zh) * 2018-01-13 2020-06-12 福州大学 一种可配置的多尺寸dct变换硬件复用架构
CN116366248B (zh) * 2023-05-31 2023-09-29 山东大学 基于紧凑指令集扩展的Kyber实现方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857756A (zh) * 2012-07-19 2013-01-02 西安电子科技大学 适于hevc标准的变换编码器
CN103024389A (zh) * 2012-12-24 2013-04-03 芯原微电子(北京)有限公司 一种用于hevc的解码装置和方法
CN103067718A (zh) * 2013-01-30 2013-04-24 上海交通大学 适用于数字视频编解码的一维离散余弦逆变换模块电路
CN103092559A (zh) * 2013-01-30 2013-05-08 上海交通大学 用于hevc标准下dct/idct电路的乘法器结构

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9049452B2 (en) * 2011-01-25 2015-06-02 Mediatek Singapore Pte. Ltd. Method and apparatus for compressing coding unit in high efficiency video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102857756A (zh) * 2012-07-19 2013-01-02 西安电子科技大学 适于hevc标准的变换编码器
CN103024389A (zh) * 2012-12-24 2013-04-03 芯原微电子(北京)有限公司 一种用于hevc的解码装置和方法
CN103067718A (zh) * 2013-01-30 2013-04-24 上海交通大学 适用于数字视频编解码的一维离散余弦逆变换模块电路
CN103092559A (zh) * 2013-01-30 2013-05-08 上海交通大学 用于hevc标准下dct/idct电路的乘法器结构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Low Complexity Multiplierless Transform Coding for HEVC;Chunxiao Fan et al.;《Advances in Multimedia Information Processing-PCM 2012》;20121206;578-586 *
新一代视频编码标准——HEVC;朱秀昌等;《南京邮电大学学报(自然科学版)》;20130630;第33卷(第3期);1-11 *

Also Published As

Publication number Publication date
CN103369326A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN103369326B (zh) 适于高性能视频编码标准hevc的变换编码器
JP3228927B2 (ja) プロセッサエレメント、プロセッシングユニット、プロセッサ、及びその演算処理方法
CN101841730A (zh) 一种基于fpga的实时立体视觉实现方法
CN109840585B (zh) 一种面向稀疏二维卷积的运算方法和***
CN114995782B (zh) 数据处理方法、装置、设备和可读存储介质
CN112257844A (zh) 一种基于混合精度配置的卷积神经网络加速器及其实现方法
CN110851779A (zh) 用于稀疏矩阵运算的脉动阵列架构
CN113077047A (zh) 一种基于特征图稀疏性的卷积神经网络加速器
CN102300092B (zh) 一种基于提升格式的9/7小波逆变换的图像解压缩方法
Xiao et al. FPGA-based scalable and highly concurrent convolutional neural network acceleration
CN101426134A (zh) 用于视频编解码的硬件装置及方法
CN108259919B (zh) 一种快速实现8x8DCT变换的硬件***
Yin et al. FPGA-based high-performance CNN accelerator architecture with high DSP utilization and efficient scheduling mode
CN107092462B (zh) 一种基于fpga的64位异步乘法器
CN103092559B (zh) 用于hevc标准下dct/idct电路的乘法器结构
CN116888591A (zh) 一种矩阵乘法器、矩阵计算方法及相关设备
CN110766136B (zh) 一种稀疏矩阵与向量的压缩方法
CN104053011B (zh) 应用于jpeg2000解码器中的二维离散小波逆变换器
CN116842304A (zh) 一种不规则稀疏矩阵的计算方法及***
CN103902762A (zh) 一种针对正定对称矩阵进行最小二乘方程求解的电路结构
CN116167425A (zh) 一种神经网络加速方法、装置、设备及介质
CN101126974B (zh) 一种改进的Booth 2乘法器结构
CN102447898B (zh) 用fpga实现klt变换的方法
CN103179398A (zh) 一种提升小波变换fpga实现的方法
CN210109863U (zh) 乘法器、装置、神经网络芯片及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160629