CN112819684A - 一种面向图像文本识别的加速装置 - Google Patents

一种面向图像文本识别的加速装置 Download PDF

Info

Publication number
CN112819684A
CN112819684A CN202110229077.6A CN202110229077A CN112819684A CN 112819684 A CN112819684 A CN 112819684A CN 202110229077 A CN202110229077 A CN 202110229077A CN 112819684 A CN112819684 A CN 112819684A
Authority
CN
China
Prior art keywords
gate
module
data
array
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110229077.6A
Other languages
English (en)
Other versions
CN112819684B (zh
Inventor
张旻晋
许达文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shihaixintu Microelectronics Co ltd
Original Assignee
Chengdu Shihaixintu Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shihaixintu Microelectronics Co ltd filed Critical Chengdu Shihaixintu Microelectronics Co ltd
Priority to CN202110229077.6A priority Critical patent/CN112819684B/zh
Publication of CN112819684A publication Critical patent/CN112819684A/zh
Application granted granted Critical
Publication of CN112819684B publication Critical patent/CN112819684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种面向图像文本识别的加速装置,包括:处理器、存储器和图像文本加速器。其中,图像文本加速器包括:运算阵列、softmax模块、归一化模块、embedding模块和激活模块。运算阵列分别与softmax模块、归一化模、embedding模块和激活模块连接。各个功能模块的功能相对独立,协同工作,共同完成对图像数据的快速识别,从而相较于利用复杂的网络结果进行图像处理的方法而言,利用该加速装置进行图像识别在保证精度的情况下具有更快的运算速度,从整体上有效提高了图像识别的效率。

Description

一种面向图像文本识别的加速装置
技术领域
本发明涉及图像文本处理技术领域,具体涉及一种面向图像文本识别的加速装置。
背景技术
深度学习等智能感知算法使电子设备具备准确的感知能力,如手势识别,语音识别,文本识别等,为设备的管理和控制提供了更准确的感知信息。而针对图像中的文字识别也出现了一系列新的方法,同时针对文本的语义感知技术也发展至一定的阶段。
目前,针对图像中的文本进行识别主要通过对图像中的文本块进行检测与裁剪,然后通过文本识别方法对裁剪出部分的图像中的文本块进行识别。大多数情况下,对图像中的文本块进行识别时,可通过简易的网络结构实现实时性的文本识别,但精度不高。而采用复杂的网络结构进行高精度识别的方法计算量较大,难以达到实时性识别的目的。同时,采用从图像到语义的预测过程还需要从文本到语义识别的模型中加入其他模型,进一步增大的模型的复杂度和计算量,这对从图像文本到语义的识别处理过程造成了很大的挑战。
发明内容
本发明所要解决的技术问题是:复杂的网络结构对文本图像进行高精度处理时计算量大,导致处理时间长,难以实现实时性处理的目的。目的在于:提供一种面向图像文本识别的加速装置,达到对图像中的文本进行快速识别的目的。
本发明通过下述技术方案实现:
一种面向图像文本识别的加速装置,包括:处理器、存储器和图像文本加速器。处理器、存储器和图像文本加速器彼此双向连接;处理器用于从存储器中接收图像数据,生成控制图像文本加速器工作的执行命令,同时执行对图像的预处理操作;存储器用于存储预先输入的图像数据,并为处理器和图像文本加速器提供数据存储空间;图像文本加速器用于执行图像文本识别的加速处理。
其中,图像文本加速器包括:运算阵列、softmax模块、归一化模块、embedding模块和激活模块。运算阵列分别与softmax模块、归一化模、embedding模块和激活模块连接。运算阵列用于执行卷积运算、内积运算、点乘运算和加法运算;softmax模块用于针对运算阵列的输出数据进行softmax运算;归一化模块用于针对运算阵列的输出数据进行归一化处理;embedding模块用于针对运算阵列的输入数据进行查表转换处理;激活模块用于针对运算阵列的输出数据进行激活运算。
本发明一种面向图像文本识别的加速装置的发明点在于:该加速装置集成了运算阵列、softmax模块、归一化模块、embedding模块和激活模块,各个功能模块均具有运算精度、且运算速度快的特点优势,且各个功能模块的功能相对独立,多个具有不同功能的模块对图像数据进行高精度且快速地分步处理,各模块之间协同工作,共同完成对图像数据的快速识别,从而相较于利用复杂的网络结果进行图像处理的方法而言,利用该加速装置进行图像识别在保证精度的情况下具有更快的运算速度,从整体上有效提高了图像识别的效率。
作为对本发明的进一步描述,图像文本加速器还包括:缓存和控制器。其中,缓存分别与所述运算阵列、softmax模块、归一化模块、embedding模块和激活模块连接,用于暂存所述运算阵列、softmax模块、归一化模块、embedding模块和激活模块的中间结果;控制器分别与所述运算阵列、softmax模块、归一化模块、embedding模块、激活模块和缓存连接,用于分别控制所述运算阵列、softmax模块、归一化模块、embedding模块、激活模块和缓存工作。
作为对本发明的进一步描述,图像文本加速器还包括:池化模块。池化模块分别与缓存和控制器连接,用于对缓存中的缓存数据进行池化运算。
作为对本发明的进一步描述,运算阵列包括:运算单元、阵列输入端口和阵列输出端口。所述运算单元分别与阵列输入端口和阵列输出端口连接。
作为对本发明的进一步描述运算单元包括第一数据输入端口、第二数据输入端口、第三数据输入端口、第一数据输出端口和第二数据输出端口。其中,阵列输入端口包括:第一阵列输入端口、第二阵列输入端口、第三阵列输入端口和第四阵列输入端口。
作为对本发明的进一步描述,多个运算单元以矩阵形式排列。针对每一行的多个运算单元,第i个运算单元的第一数据输出端口与第i+1个运算单元的第二数据输入端口连接,其中,i=1,2,…,n,n为正整数;第一列的多个运算单元的第二数据输入端口拼接后,与第二阵列输入端口连接;所有运算单元第一数据输入端口拼接后,与第一阵列输入端口连接;每一列的多个运算单元的第三数据输入端口拼接为第一临时数据端口;各列的第一临时数据端口拼接后,与第三阵列输入端口连接;每一列的多个运算单元的第三数据输入端口拼接为第二临时数据端口;各列的第二临时数据端口拼接后,与第四阵列输入端口连接;每个运算单元的第一数据输出端口拼接后,与阵列输出端口连接。
作为对本发明的进一步描述,运算单元包括:选通器、乘法器、加法器和寄存器。其中,选通器包括:第一选通器、第二选通器、第三选通器、第四选通器、第五选通器、第六选通器。加法器包括:第一加法器和第二加法器。寄存器包括:第一寄存器和第二寄存器;第一选通器分别与第一寄存器、第二加法器和乘法器连接,用于向所述第一寄存器、第二加法器和乘法器传递第一选通数据所述第二选通器分别与第二加法器和所述乘法器连接,用于向第二加法器和乘法器传递第二选通数据。第三选通器分别与乘法器、第一加法器和第四选通器连接,用于接收乘法器输出的积,并将所述积传递给第一加法器和第四选通器;第四选通器分别与第三选通器、第五选通器、第二加法器连接,用于接收第三选通器输出的第三选通数据、第五选通器输出的第五选通数据和第二加法器输出的第二矩阵和。第五选通器分别与第二寄存器、第二加法器和第四选通器连接,用于接收第二寄存器输出的第二寄存数据,并将第二寄存数据传递给第二加法器和第四选通器。第六选通器与第一寄存器连接,用于接收第一寄存器输出的第一寄存数据,并将第一寄存数据输出。第一加法器分别与乘法器所述第五选通器连接,用于针对乘法器输出的积执行加法运算,得到第一矩阵和,并将第一矩阵和输出至第二寄存器。第二加法器分别与第一选通器、第二选通器和第四选通器连接,用于对第一选通器输出的第一选通数据和第二选通器输出的第二选通数据进行加法运算,得到第二矩阵和,并将第二矩阵和发送给第四选通器。第一寄存分别与第一选通器和第六选通器连接,用于暂存第一选通器输出的第一选通数据,并将第一选通数据发送给所述第六选通器。第二寄存器分别与第一加法器和第五选通器连接,用于暂存所述第一加法(34)的第一矩阵和,并将第一矩阵和发送给第五选通器。
作为对本发明的进一步描述,活模块包括Relu运算单元、GElu运算单元和tanh运算装置。激活模块与阵列输出端口连接。
作为对本发明的进一步描述,缓存包括第一缓存模块、第二缓存模块和第三缓存模块。其中,第一缓存模块包括第一缓存数据输出端口A和第一缓存数据输出端口B;第一缓存数据输出端口A与第一阵列输入端口连接,第一缓存输出端口B与第二阵列输入端口连接;第二缓存模块包括第二缓存数据输出端口,第二缓存数据输出端口与第二阵列输入端口连接;第三缓存模块包括第三缓存数据输入端口,第三缓存数据输入端口与第一阵列输入端口连接。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明一种面向图像识别的加速装置能够实现对图像文本的加速识别。
2.本发明一种面向图像识别的加速装置能够完成从图像文本到语义的识别。
3.本发明一种面向图像识别的加速装置的图像文本识别精度高。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例的一种面向图像文本识别的加速装置结构示意图。
图2为本发明实施例的一种面向图像文本识别的加速装置的运算单元结构及流程示意图。
附图标记及对应的零部件名称:
1-处理器,2-存储器,3-图像文本加速器,4-运算阵列,5-softmax模块,6-归一化模块,7-embedding模块,8-激活模块,9-缓存,10-控制器,11-池化模块,12-运算单元,13-阵列输入端口,14-阵列输出端口,15-第一数据输入端口,16-第二数据输入端口,17-第三数据输入端口,18-第一数据输出端口,19-第二数据输出端口,20-第一阵列输入端口,21-第二阵列输入端口,22-第三阵列输入端口,23-第四阵列输入端口,24-选通器,25-乘法器,26-加法器,27-寄存器,28-第一选通器,29-第二选通器,30-第三选通器,31-第四选通器,32-第五选通器,33-第六选通器,34-第一加法器,35-第二加法器,36-第一寄存器,37-第二寄存器,38-第一缓存模块,39-第二缓存模块,40-第三缓存模块,41-第一缓存数据输出端口A,42-第一缓存输出端口B,43-第二缓存数据输出端口,44-第三缓存数据输入端口。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
图1为实施例一种面向图像文本识别的加速装置结构示意图。如图所示,该加速装置包括处理器1、存储器2和图像文本加速器3。其中,处理器1、存储器2和图像文本加速器3彼此双向连接。
处理器1用于生成针对加速算法的执行命令,并将生成的执行命令传递给图像文本加速器3,控制图像文本加速器3工作;同时该处理器1访问存储器2,从存储器2中获取图像,并执行图像文本识别算法过程中的包括图像方向纠正,以及依据经过方向纠正后的图像进行图像裁剪操作,得到包含文本的图像。
存储器2用于存储预先输入的图像数据,并为处理器1和图像文本加速器3提供数据存储空间。
图像文本加速器3用于执行图像文本识别的加速处理。具体为执行图像文本识别算法中包含的神经网络前向处理,注意力推理,transformer运算,以及其包含的softmax操作,层归一化操作,池化运算,卷积运算,激活运算,矩阵内积运算,矩阵点乘运算,矩阵加法运算等。
相应的,该图像文本加速器3包括运算阵列4、softmax模块5、归一化模块6、embedding模块7和激活模块8,其中,运算阵列4分别与所述softmax模块5、归一化模块6、embedding模块7和激活模块8连接。其中,运算阵列4用于执行卷积运算、内积运算、点乘运算和加法运算;softmax模块5用于针对运算阵列4的输出数据进行softmax运算;归一化模块6用于针对运算阵列4的输出数据进行归一化处理;embedding模块7用于针对运算阵列4的输入数据进行查表转换处理;激活模块8用于针对运算阵列4的输出数据进行激活运算。
其中,激活模块8与阵列输出端口14连接,包括Relu运算单元、GElu运算单元和tanh运算装置。
此外,该图像文本加速器3还包括:缓存9和控制器10。其中,缓存9分别与所述运算阵列4、softmax模块5、归一化模块6、embedding模块7和激活模块8连接,用于暂存运算阵列4、softmax模块5、归一化模块6、embedding模块7和激活模块8的中间结果;控制器10分别与所述运算阵列4、softmax模块5、归一化模块6、embedding模块7、激活模块8和缓存9连接,用于分别控制所述运算阵列4、softmax模块5、归一化模块6、embedding模块7、激活模块8和缓存9工作。
缓存9包括第一缓存模块38、第二缓存模块39和第三缓存模块40。其中,第一缓存9包括第一缓存数据输出端口A10和第一缓存数据输出端口B42;第一缓存数据输出端口A41与第一阵列输入端口20连接,第一缓存输出端口B42与第二阵列输入端口21连接;第二缓存模块39包括第二缓存数据输出端口43,第二缓存数据输出端口43与第二阵列输入端口21连接;第三缓存模块40包括第三缓存数据输入端口44,第三缓存数据输入端口44与第一阵列输入端口15连接。
为提高图像文本识别精度,在图像文本加速器3中还包括池化模块11,该池化模块11分别与缓存9和控制器10连接,用于所述缓存9中的缓存数据进行池化操作,减小运算过程中数据的冗杂度。
运算阵列4包括:运算单元12、阵列输入端口13和阵列输出端口14。运算单元12分别与阵列输入端口13和阵列输出端口14连接。
图2为本实施例一种面向图像文本识别的加速装置的运算单元结构及流程示意图。如图所示,运算单元12包括第一数据输入端口15、第二数据输入端口16、第三数据输入端口17、第一数据输出端口18和第二数据输出端口19。阵列输入端口13包括:第一阵列输入端口20、第二阵列输入端口21、第三阵列输入端口22和第四阵列输入端口23。
多个上述运算单元12以矩阵形式排列。针对每一行的多个运算单元12,第i个运算单元12的第一数据输出端口18与第i+1个运算单元12的第二数据输入端口16连接,其中,i=1,2,…,n,n为正整数;第一列的多个运算单元12的第二数据输入端口16拼接后,与第二阵列输入端口21连接;所有运算单元12的第一数据输入端口15拼接后,与第一阵列输入端口20连接;每一列的多个运算单元12的第三数据输入端口17拼接为第一临时数据端口21;每一列的第一临时数据端口21拼接后,与第三阵列输入端口22连接;每一列的多个运算单元12的第三数据输入端口17拼接为第二临时数据端口22;每一列的第二临时数据端口22拼接后,与第四阵列输入端口22连接;每个运算单元12的第一数据输出端口18拼接后,与阵列输出端口14连接。
运算单元12包括:选通器24、乘法器25、加法器26和寄存器27。其中,选通器24包括:第一选通器28、第二选通器29、第三选通器30、第四选通器31、第五选通器32、第六选通器33;加法器26包括:第一加法器34和第二加法器35;寄存器27包括:第一寄存器36和第二寄存器37;第一选通器28分别与第一寄存器36、第二加法器35和乘法器25连接,用于向第一寄存器36、第二加法器35和乘法器25传递第一选通数据;第二选通器29分别与第二加法器35和乘法器25连接,用于向第二加法器35和乘法器25传递第二选通数据;第三选通器30分别与乘法器25、第一加法器34和第四选通器31连接,用于接收乘法器25输出的积,并将积传递给第一加法器34和第四选通器31;第四选通器31分别与第三选通器30、第五选通器32、第二加法器35连接,用于接收第三选通器30输出的第三选通数据、第五选通器32输出的第五选通数据和第二加法器35输出的第二矩阵和;第五选通器32分别与第二寄存器37、第二加法器35和第四选通器31连接,用于接收第二寄存器输出的第二寄存数据,并将第二寄存数据传递给第二加法器35和第四选通器31;第六选通器33与第一寄存器32连接,用于接收第一寄存器32输出的第一寄存数据,并将第一寄存数据输出;第一加法器34分别与乘法器25和第五选通器32连接,用于针对乘法器25输出的积执行加法运算,得到第一矩阵和,并将第一矩阵和输出至第二寄存器37;第二加法器35分别与第一选通器28、第二选通器29和第四选通器31连接,用于对第一选通器28输出的第一选通数据和第二选通器29输出的第二选通数据进行加法运算,得到第二矩阵和,并将第二矩阵和发送给第四选通器31;第一寄存器34分别与第一选通器28和第六选通器33连接,用于暂存第一选通器28输出的第一选通数据,并将第一选通数据发送给第六选通器33;第二寄存器37分别与第一加法器34和第五选通器32连接,用于暂存第一加法器34的第一矩阵和,并将第一矩阵和发送给第五选通器32。
利用具有上述结构的图像文本识别的加速装置进行图像文本识别时,首先,待处理的包含文本的图像存于存储器2中,加速器3载入图像,并执行该图像的特征提取操作,其结果暂存于存储器2,处理器1依据加速器3提取的特征数据,执行图像文本的检测与裁剪操作,其裁剪后提取的图片暂存于存储器2中;然后,加速其3载入经过处理器1裁剪后提取的图片,执行针对该图片的文本方向识别运算,处理器1依据运算结果对图片进行方向操作,纠正后的图片暂存在存储器2中;接下来,加速器3载入经过方向纠正后的图片,执行特征提取运算,包含神经网络卷积运算,transformer运算,并将所提取的特征数据暂存在存储器2中;接下来,加速器3载入加速器3生成的特征数据和处理器1纠正后的图片,执行注意力推理运算,生成针对各字符或文字的时间特征信息并暂存于存储器2中;接下来,加速器1载入加速器3所提取的特征数据以及加速器3所生成的注意力特征信息,执行视觉语义的embedding嵌入处理,并执行基于transformer运算的语义推理,将语义信息存入存储器2中;最后,加速器3载入生成的语义信息与加速器3提取的特征信息,执行基于卷积运算的特征融合处理,生成文本信息并输出至存储器2中。
针对图中的文本检测与裁剪过程,其流程为:
第一层网络处理:加速器3载入执行基于神经网络前向运算的权重,偏移量,将对应权重,偏移量在缓存9中进行排列;加速器3载入待处理图片,将待处理图片进行排列并暂存在缓存9中,并将数据,权重,偏移量分别载入运算阵列4中执行针对神经网络前向运算的向量卷积,其结果传回至缓存9;控制器10控制缓存将卷积运算结果执行所需的额外操作,其操作包含池化,激活,层归一化等处理,其操作结果传回至缓存9,并将其结果传输至存储器2;
第二层网络处理:加速器3载入对应权重与偏移量至缓存,并将第一层网络输出数据从存储器2中载入缓存,执行对应的前向操作,并输出结果,控制器10控制缓存中结果进行额外操作并将结果传递至缓存,其结果传回至存储器2;后续各层均重复每一层的操作,直至最后一层卷积完成计算。过程中,当需要执行对两层网络输出执行矩阵加法时,加速器3将对应两层的矩阵数据分别载入缓存,控制器10选通并启动运算阵列中的第二加法器35,执行矩阵各元素加法后将结果输出至缓存9;当最后一层特征提取完成后,其结果将存储于存储器38,处理器1分析其特征执行性对应图像的文本检测与裁剪操作,并将裁剪结果存回于存储器2中。
针对所裁剪的图像的文本的方向纠正,其流程为:
加速器3载入对应图像方向纠正的权重,偏移量至缓存,载入对应裁剪图像,控制器10打开运算阵列4的卷积模式,执行卷积运算,输出图像纠正信息,结果传回至存储器2;处理器1从存储器2中载入图像纠正信息,对所裁剪的图像进行方向纠正,并将结果传回至存储器2。
针对所裁剪的图像的文本特征提取,其流程为:
加速器3载入基于神经网络推理的权重与偏移量,暂存于缓存,载入所裁剪图像数至缓存,执行对应的神经网络卷积运算,并将结果暂存于缓存,同时传回至存储器2,重复该过程,直至神经网络前向运算输出所提取的特征图。
针对所裁剪的图像的特征图的基于transformer推理的语义信息提取,其流程为:
加速器3将所述特征图数据,及对应权重矩阵,偏移量分别载入缓存,执行针对特征图数据的embedding操作,其结果传回缓存;控制器10开通乘法器25,并执行第一寄存器36将数据在行内进行单向传递,执行针对矩阵的内积运算,输出结果并存于缓存;控制器10控制缓存执行针对transformer推理的额外操作,其结果传回于缓存9,其结果存回存储器2中。
针对语义特征与裁剪图像的注意力推理运算,其过程为:加速器3载入对应权重矩阵,偏移量,暂存于缓存中,载入裁剪图像数据与图像的语义特征与图像特征与缓存中,控制器10打开并启动乘法器25,执行针对注意力机制的矩阵乘法与额外操作,其结果传递至缓存9并将结果传回至存储器2。
针对注意力特征与语义特征以及图像特征的全局语义推理,其过程:
加速器3载入对应transformer的权重矩阵,偏移量于缓存中,载入注意力特征数据,语义特征数据以及图像特征数据于缓存9,控制器10开启embedding模块7执行针对所载入信息的embedding操作,其结果传回至缓存9,控制器10开启内积模式,执行针对transformer的内积运算,其结果传递至缓存,控制器10将结果控制执行额外操作,包括但不限于,偏移量加法,softmax,层归一化,矩阵点乘,矩阵加法操作,其结果将传回于缓存,并再次传回至存储器2。
针对特征和语义信息融合处理,其过程:
加速器3载入对应网络的权重与偏移量暂存于缓存中,载入对应特征数据与语义数据,控制器10开启卷积模式,执行网络前向运算,其结果暂存于缓存中,控制器10控制缓存9中结果执行至少一次额外操作,其结果存回至缓存9,并将其生成的文本结果回传至存储器。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向图像文本识别的加速装置,其特征在于,包括:
处理器(1)、存储器(2)和图像文本加速器(3);
所述处理器(1)、存储器(2)和图像文本加速器(3)彼此双向连接;
所述处理器(1)用于从所述存储器(2)中接收图像数据,生成控制所述图像文本加速器(3)工作的执行命令,同时执行对图像的预处理操作;
所述存储器(2)用于存储预先输入的图像数据,并为所述处理器(1)和所述图像文本加速器(3)提供数据存储空间;
所述图像文本加速器(3)用于执行图像文本识别的加速处理。
2.根据权利要求1所述的一种面向图像文本识别的加速装置,其特征在于,所述图像文本加速器(3)包括:
运算阵列(4)、softmax模块(5)、归一化模块(6)、embedding模块(7)和激活模块(8);
所述运算阵列(4)分别与所述softmax模块(5)、归一化模块(6)、embedding模块(7)和激活模块(8)连接;
所述运算阵列(4)用于执行卷积运算、内积运算、点乘运算和加法运算;
所述softmax模块(5)用于针对运算阵列(4)的输出数据进行softmax运算;
所述归一化模块(6)用于针对运算阵列(4)的输出数据进行归一化处理;
所述embedding模块(7)用于针对运算阵列(4)的输入数据进行查表转换处理;
所述激活模块(8)用于针对运算阵列(4)的输出数据进行激活运算。
3.根据权利要求2所述的一种面向图像文本识别的加速装置,其特征在于,所述图像文本加速器(3)包括:缓存(9)和控制器(10);
所述缓存(9)分别与所述运算阵列(4)、softmax模块(5)、归一化模块(6)、embedding模块(7)和激活模块(8)连接,用于暂存所述运算阵列(4)、softmax模块(5)、归一化模块(6)、embedding模块(7)和激活模块(8)的中间结果;
所述控制器(10)分别与所述运算阵列(4)、softmax模块(5)、归一化模块(6)、embedding模块(7)、激活模块(8)和缓存(9)连接,用于分别控制所述运算阵列(4)、softmax模块(5)、归一化模块(6)、embedding模块(7)、激活模块(8)和缓存(9)工作。
4.根据权利要求3所述的一种面向图像文本识别的加速装置,其特征在于,所述图像文本加速器(3)包括:池化模块(11),所述池化模块(11)分别与所述缓存(9)和控制器(10)连接,用于对所述缓存(9)中的缓存数据进行池化操作。
5.根据权利要求2-4中任意一项所述的一种面向图像文本识别的加速装置,其特征在于,所述运算阵列(4)包括:运算单元(12)、阵列输入端口(13)和阵列输出端口(14);所述运算单元(12)分别与阵列输入端口(13)和阵列输出端口(14)连接。
6.根据权利要求5所述的一种面向图像文本识别的加速装置,其特征在于,
所述运算单元(12)包括第一数据输入端口(15)、第二数据输入端口(16)、第三数据输入端口(17)、第一数据输出端口(18)和第二数据输出端口(19);
所述阵列输入端口(13)包括:第一阵列输入端口(20)、第二阵列输入端口(21)、第三阵列输入端口(22)和第四阵列输入端口(23)。
7.根据权利要求6所述的一种面向图像文本识别的加速装置,其特征在于,多个运算单元(12)以矩阵形式排列;
针对每一行的多个运算单元(12),第i个运算单元(12)的第一数据输出端口(18)与第i+1个运算单元(12)的第二数据输入端口(16)连接,其中,i=1,2,…,n,n为正整数;
第一列的多个运算单元(12)的第二数据输入端口(16)拼接后,与第二阵列输入端口(21)连接;
所有运算单元(12)的第一数据输入端口(15)拼接后,与第一阵列输入端口(20)连接;
每一列的多个运算单元(12)的第三数据输入端口(17)拼接为第一临时数据端口(21);
每一列的第一临时数据端口(21)拼接后,与第三阵列输入端口(22)连接;
每一列的多个运算单元(12)的第三数据输入端口(17)拼接为第二临时数据端口(22);
每一列的第二临时数据端口(22)拼接后,与第四阵列输入端口(22)连接;
每个运算单元(12)的第一数据输出端口(18)拼接后,与阵列输出端口(14)连接。
8.根据权利6或7所述的一种面向图像文本识别的加速装置,其特征在于,所述运算单元(12)包括:选通器(24)、乘法器(25)、加法器(26)和寄存器(27);
所述选通器(24)包括:第一选通器(28)、第二选通器(29)、第三选通器(30)、第四选通器(31)、第五选通器(32)、第六选通器(33);
所述加法器(26)包括:第一加法器(34)和第二加法器(35);
所述寄存器(27)包括:第一寄存器(36)和第二寄存器(37);
所述第一选通器(28)分别与所述第一寄存器(36)、第二加法器(35)和乘法器(25)连接,用于向所述第一寄存器(36)、第二加法器(35)和乘法器(25)传递第一选通数据;
所述第二选通器(29)分别与所述第二加法器(35)和所述乘法器(25)连接,用于向所述第二加法器(35)和所述乘法器(25)传递第二选通数据;
所述第三选通器(30)分别与所述乘法器(25)、第一加法器(34)和第四选通器(31)连接,用于接收所述乘法器(25)输出的积,并将所述积传递给所述第一加法器(34)和第四选通器(31);
所述第四选通器(31)分别与第三选通器(30)、第五选通器(32)、第二加法器(35)连接,用于接收第三选通器(30)输出的第三选通数据、第五选通器(32)输出的第五选通数据和第二加法器(35)输出的第二矩阵和;
所述第五选通器(32)分别与所述第二寄存器(37)、第二加法器(35)和第四选通器(31)连接,用于接收第二寄存器输出的第二寄存数据,并将所述第二寄存数据传递给所述第二加法器(35)和第四选通器(31);
所述第六选通器(33)与第一寄存器(32)连接,用于接收第一寄存器(32)输出的第一寄存数据,并将所述第一寄存数据输出;
所述第一加法器(34)分别与所述乘法器(25)和所述第五选通器(32)连接,用于针对所述乘法器(25)输出的积执行加法运算,得到第一矩阵和,并将所述第一矩阵和输出至第二寄存器(37);
所述第二加法器(35)分别与所述第一选通器(28)、第二选通器(29)和第四选通器(31)连接,用于对第一选通器(28)输出的第一选通数据和第二选通器(29)输出的第二选通数据进行加法运算,得到第二矩阵和,并将所述第二矩阵和发送给所述第四选通器(31);
所述第一寄存器(34)分别与所述第一选通器(28)和第六选通器(33)连接,用于暂存所述第一选通器(28)输出的第一选通数据,并将所述第一选通数据发送给所述第六选通器(33);
所述第二寄存器(37)分别与所述第一加法器(34)和第五选通器(32)连接,用于暂存所述第一加法器(34)的第一矩阵和,并将所述第一矩阵和发送给所述第五选通器(32)。
9.根据权利要求2-4中任意一项所述的一种面向图像文本识别的加速装置,其特征在于,所述激活模块(8)包括Relu运算单元、GElu运算单元和tanh运算装置;所述激活模块(8)与所述阵列输出端口(14)连接。
10.根据权利要求3或4所述的一种面向图像文本识别的图像文本加速器,其特征在于,
所述缓存(9)包括第一缓存模块(38)、第二缓存模块(39)和第三缓存模块(40);
所述第一缓存模块(38)包括第一缓存数据输出端口A(10)和第一缓存数据输出端口B(42);
所述第一缓存数据输出端口A(41)与所述第一阵列输入端口(20)连接,所述第一缓存输出端口B(42)与所述第二阵列输入端口(21)连接;
所述第二缓存模块(39)包括第二缓存数据输出端口(43),所述第二缓存数据输出端口(43)与所述第二阵列输入端口(21)连接;
所述第三缓存模块(40)包括第三缓存数据输入端口(44),所述第三缓存数据输入端口(44)与所述第一阵列输入端口(15)连接。
CN202110229077.6A 2021-03-02 2021-03-02 一种面向图像文本识别的加速装置 Active CN112819684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110229077.6A CN112819684B (zh) 2021-03-02 2021-03-02 一种面向图像文本识别的加速装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110229077.6A CN112819684B (zh) 2021-03-02 2021-03-02 一种面向图像文本识别的加速装置

Publications (2)

Publication Number Publication Date
CN112819684A true CN112819684A (zh) 2021-05-18
CN112819684B CN112819684B (zh) 2022-07-26

Family

ID=75862689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110229077.6A Active CN112819684B (zh) 2021-03-02 2021-03-02 一种面向图像文本识别的加速装置

Country Status (1)

Country Link
CN (1) CN112819684B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642712A (zh) * 2021-08-17 2021-11-12 成都视海芯图微电子有限公司 一种基于深度学习的点云数据处理器及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657263A (zh) * 2016-08-12 2018-02-02 北京深鉴科技有限公司 一种用于实现ann的深度处理单元
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109902063A (zh) * 2019-02-01 2019-06-18 京微齐力(北京)科技有限公司 一种集成有二维卷积阵列的***芯片
CN111275046A (zh) * 2020-01-10 2020-06-12 中科鼎富(北京)科技发展有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111291323A (zh) * 2020-02-17 2020-06-16 南京大学 一种基于脉动阵列的矩阵乘法处理器及其数据处理方法
CN111506343A (zh) * 2020-03-05 2020-08-07 北京大学深圳研究生院 一种基于脉动阵列硬件架构的深度学习卷积运算实现方法
US20200293867A1 (en) * 2019-03-12 2020-09-17 Nvidia Corp. Efficient neural network accelerator dataflows
CN111931925A (zh) * 2020-08-10 2020-11-13 西安电子科技大学 基于fpga的二值化神经网络的加速***
CN112016543A (zh) * 2020-07-24 2020-12-01 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
WO2021004366A1 (zh) * 2019-07-08 2021-01-14 浙江大学 基于结构化剪枝和低比特量化的神经网络加速器及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657263A (zh) * 2016-08-12 2018-02-02 北京深鉴科技有限公司 一种用于实现ann的深度处理单元
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109902063A (zh) * 2019-02-01 2019-06-18 京微齐力(北京)科技有限公司 一种集成有二维卷积阵列的***芯片
US20200293867A1 (en) * 2019-03-12 2020-09-17 Nvidia Corp. Efficient neural network accelerator dataflows
WO2021004366A1 (zh) * 2019-07-08 2021-01-14 浙江大学 基于结构化剪枝和低比特量化的神经网络加速器及方法
CN111275046A (zh) * 2020-01-10 2020-06-12 中科鼎富(北京)科技发展有限公司 一种字符图像识别方法、装置、电子设备及存储介质
CN111291323A (zh) * 2020-02-17 2020-06-16 南京大学 一种基于脉动阵列的矩阵乘法处理器及其数据处理方法
CN111506343A (zh) * 2020-03-05 2020-08-07 北京大学深圳研究生院 一种基于脉动阵列硬件架构的深度学习卷积运算实现方法
CN112016543A (zh) * 2020-07-24 2020-12-01 华为技术有限公司 一种文本识别网络、神经网络训练的方法以及相关设备
CN111931925A (zh) * 2020-08-10 2020-11-13 西安电子科技大学 基于fpga的二值化神经网络的加速***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
S ZHAO 等: ""A 307-fps 351.7-GOPs/W Deep Learning FPGA Accelerator for Real-time Scene Text Recognition"", 《2019 ICFPT》 *
YIXIAN KUO 等: ""An Efficient Accelerator for Deep Convolutional Neural Networks"", 《2020 ICEE-TAIWAN》 *
乔瑞秀 等: ""一种高性能可重构深度卷积神经网络加速器"", 《西安电子科技大学学报》 *
王洪利: ""卷积神经网络硬件加速器的设计及实现"", 《中国优秀硕士学位论文全文数据库》 *
钟卓耀: ""基于深度学习的自然场景图像中文字检测的研究和应用"", 《中国优秀博士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642712A (zh) * 2021-08-17 2021-11-12 成都视海芯图微电子有限公司 一种基于深度学习的点云数据处理器及方法
CN113642712B (zh) * 2021-08-17 2023-08-08 成都视海芯图微电子有限公司 一种基于深度学习的点云数据处理器及方法

Also Published As

Publication number Publication date
CN112819684B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
US20210224125A1 (en) Operation Accelerator, Processing Method, and Related Device
CN111651207B (zh) 一种神经网络模型运算芯片、方法、装置、设备及介质
CN110222760B (zh) 一种基于winograd算法的快速图像处理方法
CN112163601B (zh) 图像分类方法、***、计算机设备及存储介质
CN111882031A (zh) 一种神经网络蒸馏方法及装置
CN111931901A (zh) 一种神经网络构建方法以及装置
CN111126590B (zh) 一种人工神经网络运算的装置及方法
CN114925320B (zh) 一种数据处理方法及相关装置
US20230143985A1 (en) Data feature extraction method and related apparatus
CN110782430A (zh) 一种小目标的检测方法、装置、电子设备及存储介质
CN112819684B (zh) 一种面向图像文本识别的加速装置
CN111652349A (zh) 一种神经网络的处理方法及相关设备
CN113033337A (zh) 基于TensorRT的行人重识别方法及装置
CN111199276B (zh) 数据处理方法及相关产品
CN114298289A (zh) 一种数据处理的方法、数据处理设备及存储介质
CN110502975B (zh) 一种行人重识别的批量处理***
CN116842384A (zh) 多模态模型训练方法、装置、电子设备及可读存储介质
CN116468902A (zh) 图像的处理方法、装置和非易失性计算机可读存储介质
CN116386105A (zh) 人脸表情识别方法、电子设备及存储介质
CN111652051B (zh) 人脸检测模型生成方法、装置、设备和存储介质
KR102372869B1 (ko) 인공 신경망을 위한 행렬 연산기 및 행렬 연산 방법
CN117063182A (zh) 一种数据处理方法和装置
CN116050469A (zh) Ai模型的处理方法、运算方法及装置
KR20220078819A (ko) 딥러닝 연산 수행 방법 및 장치
CN115146757A (zh) 一种神经网络模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant