CN109241904B - 文字识别模型训练、文字识别方法、装置、设备及介质 - Google Patents
文字识别模型训练、文字识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109241904B CN109241904B CN201811008806.XA CN201811008806A CN109241904B CN 109241904 B CN109241904 B CN 109241904B CN 201811008806 A CN201811008806 A CN 201811008806A CN 109241904 B CN109241904 B CN 109241904B
- Authority
- CN
- China
- Prior art keywords
- text
- handwriting
- neural network
- character
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000003062 neural network model Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000010276 construction Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 230000010354 integration Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011151 fibre-reinforced plastic Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种文字识别模型训练、文字识别方法、装置、设备及介质,所述方法包括:获取原始图片集,采用图像检测算法获取原始图片集的手写体文字区域;采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线;将每一原始图对应的文本线组合成单行文字图片集;将单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型。通过从手写体文字区域中获取单行文字图片集,扩大了样本集,同时减少其他文字区域的干扰,进而提高后续的手写体文字模型的识别准确率。而且将单行文字图片集输入YOLO神经网络模型中进行训练,由于YOLO神经网络模型结构简单,运算复杂度较低,使得手写体文字识别模型的训练效率得到了极大的提高。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种文字识别模型训练、文字识别方法、装置、设备及介质。
背景技术
手写体文字是一种手工写出的文字,由于不同人手工写出来的字体大小和风格都会有区别,导致手写体文字形式多样性,考虑到它的一些特性,譬如字迹潦草、字体连笔或字体大小不一等,增加了手写体文字识别的难度,使得手写体文字的识别率非常低。
传统地,对手写体文字进行识别往往是预先进行笔画或部件的提取,并需要人工干预保证提取结果的正确性,但是由于手写体文字的多样性,很难准确提取到各种风格的手写体文字的特征,而且因手写体文字本身的风格多样,因此需要提取的文字特征数量较多,难以达到文字识别***要求的识别的准确度和速度。
发明内容
本发明实施例提供一种文字识别模型训练方法、装置、计算机设备及存储介质,以解决手写体文字识别模型训练效率较低的问题。
本发明实施例提供一种文字识别方法、装置、计算机设备及存储介质以解决手写体文字识别的准确度和速度不高的问题。
一种文字识别模型训练方法,包括:
获取原始图片集,采用图像检测算法获取所述原始图片集中的的每一原始图片的手写体文字区域;
采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线;
将所述每一原始图对应的文本线组合成单行文字图片集;从所述手写体文字区域中获取单行文字图片集;
将所述单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型。
一种文字识别模型训练装置,包括:
文字区域获取模块,用于获取原始图片集,采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域;
文本线构造模块,用于采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线;
单行文字图片集获取模块,将所述每一原始图对应的文本线组合成单行文字图片集;
文字识别模型获取模块,用于将所述单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型。
一种文字识别方法,包括:
获取待识别手写体文字图片,采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域;
从所述待识别文字区域中获取待识别单行文字图片;
将所述待识别单行文字图片输入到所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别,获取所述待识别单行文字图片的文字识别结果。
一种文字识别装置,包括:
待识别文字区域获取模块,用于获取待识别手写体文字图片,采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域;
单行文字图片获取模块,用于从待识别文字区域中获取待识别单行文字图片;
文字识别结果获取模块,用于将所述待识别单行文字图片输入到所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别,获取所述待识别单行文字图片的文字识别结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文字识别模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现上述文字识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文字识别模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现上述文字识别方法的步骤。
上述文字识别模型训练方法、装置、设备及介质中,首先获取原始图片集,采用图像检测算法获取原始图片集的手写体文字区域,以便后续更加高效地对手写体文字进行处理。然后采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线;将每一原始图对应的文本线组合成单行文字图片集,扩大了样本集,同时减少其他文字区域的干扰,进而提高后续的手写体文字模型的识别准确率。最后将单行文字图片集输入YOLO神经网络模型中进行训练,由于YOLO神经网络模型结构简单,运算复杂度较低,使得手写体文字识别模型的训练效率得到了极大的提高。
上述文字识别方法、装置、设备及介质中,首先获取待识别手写体文字图片,然后采用图像检测算法获取待识别手写体文字图片的待识别文字区域。然后,从待识别文字区域中获取待识别单行文字图片,减少其他文字区域的干扰,进而提高了后续的手写体文字识别准确率。最后,将待识别单行文字图片输入到手写体文字识别模型中进行识别,提高了待识别手写体文字图片的文字识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文字识别模型训练方法、文字识别方法的应用环境示意图;
图2是本发明实施例提供的文字识别模型训练方法一示例图;
图3是本发明实施例提供的文字识别模型训练方法的另一示例图;
图4是本发明实施例提供的文字识别模型训练方法的另一示例图;
图5是本发明实施例提供的文字识别模型训练方法的另一示例图;
图6是本发明实施例提供的文字识别模型训练装置的一原理框图;
图7是本发明实施例提供的文字识别方法一示例图;
图8是本发明实施例提供的文字识别装置的一原理框图;
图9是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文字识别模型训练方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的原始图片集,并对该原始图片集进行检测,得到手写体文字区域,接着对手写体文字区域进行处理,得到单行文字图片集,进而将单行文字图片集输入到YOLO神经网络模型中进行训练,得到手写体文字识别模型。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:获取原始图片集,采用图像检测算法获取原始图片集中的每一原始图片的手写体文字区域。
其中,原始图片集是指包含有手写体文字的图片组成的集合。手写体文字区域是指对每一原始图片的手写体文字进行框选标注的区域。手写体文字区域可以是整页的文字区域、表格中的单元格区域或文稿中指定的文字区域。可选地,手写体文字区域的图像一般采用bmp文件格式。
图像检测算法是指对给定的包含有手写体文字的图片中定位出手写体文字所在的区域,以得到手写体文字区域。可选地,该手写体文字区域为一矩形框。例如:一幅包含有手写体文字的原始图像,通过图像检测算法框选出包含有手写体文字的图片的手写体文字区域,包含有手写体文字的图片中非文字区域(如空白背景)不做考虑。其中,图像检测算法可以是dlib图像检测算法也可以是opencv库图像检测算法,还可以是基于深度学习的图像检测算法。
优选地,本实施例中采用基于深度学习的图像检测算法对原始图像集进行检测,分析出手写体文字的文字区域。通过获取手写体文字区域,以便后续更加高效地对手写体文字进行处理。
S20:采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线。
其中,文本线构造算法是指对文本的候选区域构造出文本线的算法。
其中,文本线指字符、字符的一部分或者多字符的序列。可以理解地,同一文本线上不同手写体文字可以互相利用上下文即文字的语义进行分析,如此,为手写体文字识别增加更多有效信息,有利于提高后续的手写体文字识别模型的识别的准确度。
S30:将每一原始图对应的文本线组合成单行文字图片集。
具体地,根据文本线将两个位置接近的手写体文字区域组成一个区域文字组合,然后合并不同的文字组合直到无法再合并为止(即没有公共手写体文字区域),得到单行文字图片集。根据文本的文本线,将文字进行划分,获取到单行文字,减少其他区域文字对识别的干扰。可以理解地,对于一个文本线,同一文本线上不同手写体文字差异大,空间距离远,要作为一个整体识别出来比单个目标难度更大。因此,预测手写体文字区域的竖直位置(上下边界)比水平位置(左右边界)更容易,因此,单行文字图像更利于手写体文字的识别。
其中,单行文字图片集是指单行手写体文字图片组成的集合,用于作为手写体文字识别模型进行训练和检测识别的图片集。可以理解地,对手写体文字区域划分后得到的是单行文字图片。如此,可以扩大样本集,同时减少其他文字区域的干扰,进而提高了后续的手写体文字识别模型的识别准确率。
具体地,从手写体文字区域中获取单行文字图片集具体作法是对手写体文字区域进行连通区域搜索,然后整合可能为手写体文字的区域,得到单行文字图。具体实现方法包括但不限于:文本线构造算法和文本搜索算法等。其中,文本线构造算法是通过构造文本线对手写体文字区域进行整合算法。文本搜索算法是通过搜索邻近区域对手写体文字区域进行整合算法进行整合的算法。
本实施例中,采用文本线构造算法将手写体文字区域合并成文本线,通过文本线可以使得手写体文字可以互相利用上下文进行语义分析。基于文本线获取单行文字图片集,更利于手写体文字的识别。
S40:将单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型。
其中,YOLO神经网络模型是指基于端到端(end-to-end)的图像定位识别网络模型,YOLO神经网络模型将图像检测识别作为回归问题求解。具体地,基于一个单独的端到端的神经网络,完成从原始图像的输入到物***置和类别的输出。
其中,手写体文字识别模型是指用于对手写体文字进行识别的网络模型。具体地,手写体文字识别模型是通过对YOLO神经网络模型进行训练得到的,因此,手写体文字识别模型将手写体文字识别作为一个回归问题进行求解。输入单行文字图像集到手写体文字识别模型,便能得到单行文字图像集中所有手写体文字的位置和其所属类别相应的置信概率。例如,一单行文字图像上有一行字为“文字识别”,将这幅图像输入到手写体文字识别模型中,会输出如下信息:单行文字图像的第一个区域(一个矩形区域)是“文”字,识别率为88.6%,单行文字图像的第二个区域(一个矩形区域)是“字”字,识别率为92.6%,单行文字图像的第三个区域(一个矩形区域)是“识”字,识别率为90.3%,单行文字图像的第四个区域(一个矩形区域)是“别”字,识别率为94.8%。
具体地,将单行文字图片集输入YOLO神经网络模型中进行训练,在YOLO神经网络模型中对单行文字图片进行网络预测,得到手写体文字识别模型。
可以理解地,YOLO神经网络模型无需区域生成,直接在整个输入图像中回归预测目标,并且,YOLO神经网络模型结构简单,运算复杂度较低,因此,将单行文字图像集输入到YOLO神经网络模型中进行训练得到的手写体文字识别模型,极大提高了手写体文字识别模型的训练效率。
本实施例中,首先获取原始图片集,采用图像检测算法获取原始图片集的手写体文字区域,以便后续更加高效地对手写体文字进行处理。然后采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线;将每一原始图对应的文本线组合成单行文字图片集,扩大了样本集,同时减少其他文字区域的干扰,进而提高后续的手写体文字模型的识别准确率。最后将单行文字图片集输入YOLO神经网络模型中进行训练,由于YOLO神经网络模型结构简单,运算复杂度较低,使得手写体文字识别模型的训练效率得到了极大的提高。
在一实施例中,如图3所示,步骤S20中,采用文本线构造算法将手写体文字区域合并成文本线,包括:
S21:获取每一原始图片的手写体文字区域的坐标(Xi,Yi),其中i为正整数,Xi和Yi分别为第i个手写体文字区域的横坐标和纵坐标。
其中,手写体文字区域的坐标是指手写体文字区域中一预定位置对应的坐标数值,例如,将每一手写体文字区域左上角位置的坐标的数值作为每一手写体文字区域的坐标(Xi,Yi)。通过获取到手写体文字区域i的坐标(Xi,Yi)作为手写体文字区域进行整合的依据。
S22:对于每一手写体文字区域,计算该手写体文字区域横坐标Xi与相邻的手写体文字区域横坐标之间的距离,得到横向距离,并计算该手写体文字区域纵坐标Yi与相邻的手写体文字区域纵坐标之间的距离,得到纵向距离。
其中,横向距离是指相邻两个手写体文字区域的横坐标之间的距离。可以理解地,与手写体文字区域横坐标Xi相邻的手写体文字区域横坐标为Xi-1或Xi+1,与手写体文字区域纵坐标Yi相邻的手写体文字区域纵坐标为Yi-1或Yi+1。例如横向距离是|Xi-1-Xi|和|Xi+1-Xi|。纵向距离是指相邻两个手写体文字区域的纵坐标之间的距离,例如纵向距离是|Yi-1-Yi|和|Yi+1-Yi|。需要说明的是,第一个手写体文字区域和最后一个手写体文字区域均只有一个相邻的手写体文字区域,即与第一个手写体文字区域坐标(X1,Y1)相邻的手写体文字区域坐标为(X2,Y2),也即与最后一个手写体文字区域坐标(Xm,Ym)相邻的手写体文字区域坐标为(Xm-1,Ym-1),其中,m为手写体区域的总个数,m为正整数。如此,对于第一个手写体文字区域和最后一个手写体文字区域,在计算横向横向距离和纵向距离时,均只需要进行一次计算。
S23:若横向距离小于或等于第一阈值且纵向距离小于或等于第二阈值,则对手写体文字区域和对应的相邻的手写体文字区域进行合并,得到整合区域。
其中,第一阈值是指两个手写体文字区域进行整合的横向距离的临界值。其中,第二阈值是指两个手写体文字区域进行整合的纵向距离的临界值。在一具体实施方式中,第一阈值为手写体区域中单个手写体文字的宽度,第一阈值为手写体区域中单个手写体文字的高度,例如,单个手写体文字大小为1cm×1cm,此时,第一阈值为1cm,第二阈值为1cm。其中,整合区域是指将两个手写体文字区域进行组合后得到一块区域。
可以理解地,相邻两个手写体文本区域横向距离越小且纵向距离也越小,越容易满足两个区域形成一个文本线的条件,当两个手写体文本区域的横向距离大于第一阈值或者纵向距离大于第二阈值时,这两个手写体文字区域越分散,因此合并成文本线的可能性越小。通过计算手写体文字区域横向距离和纵向距离作为两个手写体文字区域进行组合的条件,更有利于得到较为准确的文字区域。
S24:将整合区域连接成成文本线。
具体地,将每个整合区域进行连接合并,构成文本线。可以理解地,由于整合区域中的手写体文本区域的横向距离距离最小且小于等于第一阈值,并且纵向距离最小且小于等于第二阈值,该文本线更加准确。示例性地,对于手写体文本区域A、B和C,若在步骤S213中将手写体文本区域A和B进行整合,得到整合区域,并将手写体文本区域B和C进行整合,得到另一个整合区域。则在该步骤中,会将这两个整合区域连接成成文本线。
本实施例中,通过计算比较每个手写体文字区域的横向距离和纵向距离获取文本线,使得文本线更加准确,以便后续通过文本线准确获取单行文字图片集。
在一实施例中,如图4所示,步骤S40中,将单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型,包括:
S41:使用ImageNet数据集对YOLO神经网络模型进行预训练,获取YOLO神经网络模型的卷积层的网络参数。
其中,Imagenet数据集是指一个用于视觉对象识别软件研究的大型可视化数据库中的数据集合。其中,Imagenet数据集包含有1400多万幅图片,涵盖2万多个类别。其中有超过百万的图片有明确的类别标注和图像中物***置的标注,用于作为图像分类、定位和检测。
其中,网络参数是指YOLO神经网络模型的网络结构各个卷积层的参数,用于使用卷积层的网络参数替代YOLO神经网络的全连接层,使用YOLO神经网络模型进行预训练手写体文字识别模型方便,仅仅只需要将配置文件中的类别数量替换为手写体文字识别种类个数。
具体地,使用ImageNet数据集的1000类数据训练YOLO神经网络模型的前20个卷积层、1个池化层和1个全连接层。可选地,将Imagenet数据集中的训练图像分辨率调整到224x224。在预训练网络中增加卷积和全连接层可以改善性能,具体地,对前20个卷积层和1个池化层和1个全连接层进行随机初始化权重。
S42:用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,将单行文字图片集作为训练集输入YOLO神经网络模型训练,得到手写字文字识别模型,其中,N为正整数。
具体地,将单行文字图片集输入YOLO神经网络模型模型中进行训练。为提高手写体文字识别精度,即手写体文字识别要求细粒度的视觉信息,所以把网络输入由224x224变成448x448。可以理解地,在训练手写体文字模型时,将输入图片分辨率调整到448x448。划分后得到的是单行文字图片,这样可以扩大样本集,同时减少其他文字区域的干扰。
在一具体实施方式中,将单行文字图片分成7x7个网格,某个手写体文字的中心落在这个网格中,此网格用于预测识别该手写体文字。YOLO神经网络模型最后一层输出为(7*7)*30的维度。每个1*1*30的维度对应单行文字图片7*7个细胞(cell)中的一个,1*1*30中含有类别预测和坐标(区域)预测。
YOLO神经网络模型训练过程具体为:每个网格(1*1*30维度对应单行文字图片中的细胞)要预测手写体文字的坐标(x,y,w,h),其中,(x,y)为中心坐标,(w,h)为手写体文字的宽度和高度。若手写体文文字N类(N个不同的文字,对于7x7的网格,每个网格要预测手写体文字的坐标和N个类别概率,输出就是7x7x(5x2+N)。
可以理解地,本实施例中,通过用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,实现了YOLO神经网络模型的多层特征复用和融合,且避免新增参数带来的计算复杂度,仅仅在YOLO神经网络模型的网络特征图分辨率较低的第N个卷积层(分辨率为448x448),输出的多层卷积特征,实现特征复用和融合,然后将单行文字图片集作为训练集输入YOLO神经网络模型训练,减小了手写体文字区域的非文字区域特征的干扰,提高了手写体文字识别模型的训练效率。
本实施例中,首先使用ImageNet数据集对YOLO神经网络模型进行预训练,获取YOLO神经网络模型的卷积层的网络参数,然后用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,将单行文字图片集作为训练集输入YOLO神经网络模型训练,得到手写字文字识别模型,由于实现了YOLO神经网络模型的多层特征复用和融合,且避免新增参数带来的计算复杂度,提高了手写体文字识别模型的训练效率。
在一实施例中,如图5所示,步骤S10中,获取原始图片集,采用图像检测算法获取原始图片集的手写体文字区域,包括:
S11:将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图。
其中,卷积神经网络VGGNet是深度卷积神经网络,卷积神经网络VGGNet能够使用很小的卷积(3*3),增加网络深度可以有效提升模型的效果,而且卷积神经网络VGGNet对其他数据集具有很好的泛化能力。
本实施例中,通过卷积神经网络VGGNet对手写体文字区域进行检测,以便检测到更为准确区域从而使得后续文字识别精度得以提高。具体地,将原始图片集中的图片进行标准化处理后得到预处理图像数据,将该预处理图像数据代入到卷积神经网络VGGNet的第一层卷积网络中进行卷积计算,其中,输入样本的图像大小是112×112像素,层叠卷积层网络结构由三层卷积层组成,并分别为三层卷积层设置不同尺度的视觉感知范围,当3个卷积层分别一层一层重叠了3个3x3卷积层(层与层之间有非线性激活函数)。在这个排列下,第一个卷积层中的每个神经元都对输入样本有一个3x3的视野。例如,三层卷积层分别是A、B和C,每层对应的视觉感知范围分别为3×3、5×5和7×7的卷积核,卷积核的单位为像素点。
S12:将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图。
具体地,第二层卷积神经网络上的神经元对第一层卷积神经网络有一个5x5的视野,也就是对输入第一特征图有5x5的视野。
S13:将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图。
具体地,在第三层卷积神经网络上的神经元对第二层卷积神经网络有7x7的视野,也就是对输入第二特征图有7x7的视野。假设不采用这3个3x3的卷积层,而是使用一个单独的有7x7的感受野的卷积层,那么所有神经元的感受野也是7x7。
多个卷积层与非线性的激活层交替的结构,比单一卷积层的结构更能提取出深层的更好的特征。可以表达出输入的训练样本中的更多个强力特征。
S14:将第三特征图输入到卷积神经网络VGGNet的回归层,得到手写体文字区域。
具体地,将第三特征图输入到卷积神经网络VGG的回归层中,在第三特征图的每个位置上取预设维度(如3*3*C)的窗口的特征,这些特征将用于预测该位置对应的类别信息(如手写体文字和非手写体文字即背景信息)和位置信息,且回归出来的矩形区域宽度是一定的,使得手写体文字区域更为准确。
本实施例中,将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图。然后将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图。接着,将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图。最后,将第三特征图输入到卷积神经网络VGGNet的回归层,得到手写体文字区域。通过使用卷积神经网络VGGNet对原始图像集进行检测,使得获取的手写体文字区域更为准确。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文字识别模型训练装置,该文字识别模型训练装置与上述实施例中文字识别模型训练方法一一对应。如图6所示,该文字识别模型训练装置包括文字区域获取模块10、文本线构造模块20、单行文字图片集获取模块30和文字识别模型获取模块40。各功能模块详细说明如下:
文字区域获取模块10,用于获取原始图片集,采用图像检测算法获取原始图片集的手写体文字区域;
文本线构造模块20,用于采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线;
单行文字图片集获取模块30,用于将每一原始图对应的文本线组合成单行文字图片集;
文字识别模型获取模块40,用于将单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型。
具体地,文本线构造模块包括文字区域的坐标获取单元、文字区域的坐标距离获取单元、整合区域获取单元和文本线获取单元。
文字区域的坐标获取单元,用于获取每一原始图片的手写体文字区域的坐标(Xi,Yi),其中i为正整数,Xi和Yi分别为第i个手写体文字区域的横坐标和纵坐标;
文字区域的坐标距离获取单元,用于对于每一手写体文字区域,计算手写体文字区域横坐标Xi与相邻的手写体文字区域横坐标之间的距离,得到横向距离,并计算手写体文字区域纵坐标Yi与相邻的手写体文字区域纵坐标之间的距离,得到纵向距离;
整合区域获取单元,用于若横向距离小于或等于第一阈值且纵向距离小于或等于第二阈值,则对手写体文字区域和对应的相邻的手写体文字区域进行整合,得到整合区域;
文本线获取单元,用于将整合区域连接成成文本线。
具体地,文字识别模型获取模块40包括网络参数获取单元和文字识别模型获取单元。
网络参数获取单元41,用于使用ImageNet数据集对YOLO神经网络模型进行预训练,获取YOLO神经网络模型的卷积层的网络参数;
文字识别模型获取单元42,用于用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,将单行文字图片集作为训练集输入YOLO神经网络模型训练,得到手写字文字识别模型,其中,N为正整数。
具体地,文字区域获取模块10包括第一特征图获取单元、第二特征图获取单元、第三特征图获取单元和手写体文字区域获取单元。
第一特征图获取单元,用于将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
第二特征图获取单元,用于将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
第三特征图获取单元,用于将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
手写体文字区域获取单元,用于将第三特征图输入到卷积神经网络VGGNet的回归层,得到手写体文字区域。
在一实施例中,提供一文字识别方法,该文字识别方法也可以应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端接收客户端发送待识别手写体文字图片,采用图像检测算法获取待识别文字区域,接着获取待识别文字区域的待识别单行文字图片,最后通过手写体文字识别模型对待识别单行文字图片进行文字识别,得到文字识别结果。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图7所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S50:获取待识别手写体文字图片,采用图像检测算法获取待识别手写体文字图片的待识别文字区域。
其中,待识别手写体文字图片是指需要进行识别的包含有手写体文字的图片。待识别文字区域是指对手写体文字进行框选标注的区域。具体地,本实施例中的图像检测算法与步骤S10的图像检测算法相同,其具体实现方法和步骤S11-步骤S14的方法相同,此处不再赘述。
S60:从待识别文字区域中获取待识别单行文字图片。
其中,待识别单行文字图片是指单行手写体文字图片,用于作为手写体文字识别模型进行检测识别的图片。具体地,本实施例中的获取待识别单行文字图片与步骤S30中的获取单行文字图片集方法相同,此处不再赘述。
通过获取待识别单行文字图片,减少其他文字区域的干扰,进而提高了后续的手写体文字识别准确率。
S70:将待识别单行文字图片输入到如步骤S10至步骤S40中文字识别模型训练方法训练得到的手写体文字识别模型中进行识别,获取待识别单行文字图片的文字识别结果。
其中,文字识别结果是指对待识别单行文字图片采用手写体文字识别模型进行识别得到的结果。可以理解地,步骤S10至步骤S40中的文字识别模型训练方法训练得到的手写体文字识别模型效率高,采用该手写体文字识别模型进行识别,从而提高了待识别手写体文字图片的文字识别准确率。
本实施例中,首先获取待识别手写体文字图片,然后采用图像检测算法获取待识别手写体文字图片的待识别文字区域。然后,从待识别文字区域获取待识别单行文字图片,减少其他文字区域的干扰,进而提高了后续的手写体文字识别准确率。最后,将待识别单行文字图片输入到手写体文字识别模型中进行识别,提高了待识别手写体文字图片的文字识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文字识别装置,该文字识别装置与上述实施例中文字识别方法一一对应。如图8所示,该文字识别装置包括待识别文字区域获取模块50、单行文字图片获取模块60和文字识别结果获取模块70。各功能模块详细说明如下:
待识别文字区域获取模块50,用于获取待识别手写体文字图片,采用图像检测算法获取待识别手写体文字图片的待识别文字区域;
单行文字图片获取模块60,用于从待识别文字区域中获取待识别单行文字图片;
文字识别结果获取模块70,用于将待识别单行文字图片输入到文字识别模型训练方法训练得到的手写体文字识别模型进行识别,获取待识别单行文字图片的文字识别结果。
关于文字识别模型训练装置的具体限定可以参见上文中对于文字识别模型训练方法的限定,在此不再赘述。上述文字识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始图片集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文字识别模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例文字识别模型训练方法的步骤,例如图2所示的步骤S10至步骤S40。或者处理器执行计算机程序时实现上述实施例文字识别方法的步骤,例如图7所示的步骤S50至步骤S70。或者,处理器执行计算机程序时实现上述实施例文字识别模型训练装置的各模块/单元的功能,例如图6所示的模块10至模块40。或者,处理器执行计算机程序时实现上述实施例文字识别识别装置的各模块/单元的功能,例如图8所示的模块50至模块70。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例文字识别模型训练方法的步骤,或者计算机程序被处理器执行时实现上述实施例文字识别方法的步骤,或者,计算机程序被处理器执行时实现上述实施例文字识别模型训练装置的各模块/单元的功能,或者,计算机程序被处理器执行时实现上述实施例文字识别装置的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (6)
1.一种手写体文字识别模型训练方法,其特征在于,所述手写体文字识别模型训练方法包括:
获取原始图片集,采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域;
采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线;
将所述每一原始图对应的文本线组合成单行文字图片集;
将所述单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型;
所述采用文本线构造算法将所述手写体文字区域合并成文本线,包括:
获取每一原始图片的手写体文字区域的坐标(Xi,Yi),其中i为正整数,Xi和Yi分别为第i个手写体文字区域的横坐标和纵坐标;
对于每一手写体文字区域,计算所述手写体文字区域横坐标Xi与相邻的手写体文字区域横坐标之间的距离,得到横向距离,并计算所述手写体文字区域纵坐标Yi与相邻的手写体文字区域纵坐标之间的距离,得到纵向距离;
若所述横向距离小于或等于第一阈值且所述纵向距离小于或等于第二阈值,则对所述手写体文字区域和对应的相邻的手写体文字区域进行合并,得到整合区域;
将所述整合区域连接成所述文本线;
所述将所述单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型,包括:
使用ImageNet数据集对所述YOLO神经网络模型进行预训练,获取YOLO神经网络模型的卷积层的网络参数;
用所述卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,将所述单行文字图片集作为训练集输入所述YOLO神经网络模型训练,得到所述手写体文字识别模型,其中,N为正整数;
所述获取原始图片集,采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域,包括:
将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
将所述第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
将所述第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
将所述第三特征图输入到卷积神经网络VGGNet的回归层,得到手写体文字区域。
2.一种文字识别方法,其特征在于,所述文字识别方法包括:
获取待识别手写体文字图片,采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域;
从所述待识别文字区域中获取待识别单行文字图片;
将所述待识别单行文字图片输入到如权利要求1所述手写体文字识别模型训练方法训练得到的手写体文字识别模型进行识别,获取所述待识别单行文字图片的文字识别结果。
3.一种文字识别模型训练装置,其特征在于,所述文字识别模型训练装置包括:
文字区域获取模块,用于获取原始图片集,采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域;
文本线构造模块,用于采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线;
单行文字图片集获取模块,将所述每一原始图对应的文本线组合成单行文字图片集;
文字识别模型获取模块,用于将所述单行文字图片集输入YOLO神经网络模型中进行训练,得到手写体文字识别模型;
文本线构造模块包括文字区域的坐标获取单元、文字区域的坐标距离获取单元、整合区域获取单元和文本线获取单元;
文字区域的坐标获取单元,用于获取每一原始图片的手写体文字区域的坐标(Xi ,Yi),其中i为正整数,Xi和Yi分别为第i个手写体文字区域的横坐标和纵坐标;
文字区域的坐标距离获取单元,用于对于每一手写体文字区域,计算手写体文字区域横坐标Xi与相邻的手写体文字区域横坐标之间的距离,得到横向距离,并计算手写体文字区域纵坐标Yi与相邻的手写体文字区域纵坐标之间的距离,得到纵向距离;
整合区域获取单元,用于若横向距离小于或等于第一阈值且纵向距离小于或等于第二阈值,则对手写体文字区域和对应的相邻的手写体文字区域进行整合,得到整合区域;
文本线获取单元,用于将整合区域连接成成文本线;
所述文字识别模型获取模块包括网络参数获取单元和文字识别模型获取单元;
网络参数获取单元,用于使用ImageNet数据集对所述YOLO神经网络模型进行预训练,获取YOLO神经网络模型的卷积层的网络参数;
文字识别模型获取单元,用于用所述卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数,将所述单行文字图片集作为训练集输入所述YOLO神经网络模型训练,得到所述手写体文字识别模型,其中,N为正整数;
文字区域获取模块包括:第一特征图获取单元、第二特征图获取单元、第三特征图获取单元和手写体文字区域获取单元;
第一特征图获取单元,用于将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
第二特征图获取单元,用于将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
第三特征图获取单元,用于将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
手写体文字区域获取单元,用于将第三特征图输入到卷积神经网络VGGNet的回归层,得到手写体文字区域。
4.一种文字识别装置,其特征在于,所述文字识别装置包括:
待识别文字区域获取模块,用于获取待识别手写体文字图片,采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域;
单行文字图片获取模块,用于从所述待识别文字区域中获取待识别单行文字图片;
文字识别结果获取模块,用于将所述待识别单行文字图片输入到如权利要求1所述手写体文字识别模型训练方法训练得到的手写体文字识别模型进行识别,获取所述待识别单行文字图片的文字识别结果。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述手写体文字识别模型训练方法的步骤,或者所述处理器执行所述计算机程序时实现如权利要求2所述的文字识别方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述手写体文字识别模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现如权利要求2所述的文字识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008806.XA CN109241904B (zh) | 2018-08-31 | 2018-08-31 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008806.XA CN109241904B (zh) | 2018-08-31 | 2018-08-31 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241904A CN109241904A (zh) | 2019-01-18 |
CN109241904B true CN109241904B (zh) | 2023-10-20 |
Family
ID=65069022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811008806.XA Active CN109241904B (zh) | 2018-08-31 | 2018-08-31 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241904B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919002B (zh) * | 2019-01-23 | 2024-02-27 | 平安科技(深圳)有限公司 | 黄色禁停线识别方法、装置、计算机设备及存储介质 |
CN109902577A (zh) * | 2019-01-25 | 2019-06-18 | 华中科技大学 | 一种轻量级手势检测卷积神经网络模型的构建方法及应用 |
CN111488877A (zh) * | 2019-01-29 | 2020-08-04 | 北京新唐思创教育科技有限公司 | 一种用于教学***的ocr识别方法、装置和终端 |
CN109977840A (zh) * | 2019-03-20 | 2019-07-05 | 四川川大智胜软件股份有限公司 | 一种基于深度学习的机场场面监视方法 |
CN110348280A (zh) * | 2019-03-21 | 2019-10-18 | 贵州工业职业技术学院 | 基于cnn结构神经网络的水书文字识别方法 |
CN110070045A (zh) * | 2019-04-23 | 2019-07-30 | 杭州智趣智能信息技术有限公司 | 一种营业执照的文本识别方法、***及相关组件 |
CN110321788B (zh) * | 2019-05-17 | 2024-07-02 | 平安科技(深圳)有限公司 | 训练数据处理方法、装置、设备及计算机可读存储介质 |
CN110414522A (zh) * | 2019-07-08 | 2019-11-05 | 深兰科技(上海)有限公司 | 一种字符识别方法及装置 |
CN110516665A (zh) * | 2019-08-23 | 2019-11-29 | 上海眼控科技股份有限公司 | 识别图像叠加文字区域的神经网络模型构建方法与*** |
CN110969681B (zh) * | 2019-11-29 | 2023-08-29 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的手写体书法文字生成方法 |
CN111199194A (zh) * | 2019-12-25 | 2020-05-26 | 吉林大学 | 基于机器视觉和深度学习的汽车智能座舱仪表测试方法 |
CN111242024A (zh) * | 2020-01-11 | 2020-06-05 | 北京中科辅龙科技股份有限公司 | 基于机器学习识别图纸内图例及文字的方法及*** |
CN111369503B (zh) * | 2020-02-25 | 2023-05-26 | 东南大学 | 一种基于卷积神经网络对图像中的铅笔进行精确计数的方法 |
CN111523537A (zh) * | 2020-04-13 | 2020-08-11 | 联讯益康医疗信息技术(武汉)有限公司 | 一种文字识别方法、存储介质及*** |
CN111814539B (zh) * | 2020-05-28 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于红外光和紫外光的文字识别方法、装置和计算机设备 |
CN111626244B (zh) * | 2020-05-29 | 2023-09-12 | 中国工商银行股份有限公司 | 图像识别方法、装置、电子设备和介质 |
CN111639657A (zh) * | 2020-06-03 | 2020-09-08 | 浪潮软件股份有限公司 | 一种不规则文字识别方法及装置 |
CN111832547A (zh) * | 2020-06-24 | 2020-10-27 | 平安普惠企业管理有限公司 | 文字识别模型的动态部署方法、装置和计算机设备 |
CN111814876A (zh) * | 2020-07-08 | 2020-10-23 | 重庆农村商业银行股份有限公司 | 一种票据识别方法、装置、设备及存储介质 |
CN112200312A (zh) * | 2020-09-10 | 2021-01-08 | 北京达佳互联信息技术有限公司 | 文字识别模型的训练方法、装置及存储介质 |
CN112990220B (zh) * | 2021-04-19 | 2022-08-05 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及*** |
CN113139545B (zh) * | 2021-05-08 | 2023-07-18 | 金陵科技学院 | 一种弯曲文字矫正方法、存储介质和电子装置 |
CN113705338B (zh) * | 2021-07-15 | 2023-04-07 | 电子科技大学 | 一种改进的离线手写汉字识别方法 |
CN113762269B (zh) * | 2021-09-08 | 2024-03-22 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、***及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373519A (zh) * | 2007-08-20 | 2009-02-25 | 富士通株式会社 | 字符识别装置和方法 |
KR101388196B1 (ko) * | 2012-11-12 | 2014-04-23 | 재단법인대구경북과학기술원 | 모바일 단말기의 카메라 기반 필기 인식 방법 및 그 장치 |
CN103996057A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于多特征融合的实时手写体数字识别方法 |
CN104463101A (zh) * | 2014-11-06 | 2015-03-25 | 科大讯飞股份有限公司 | 用于文字性试题的答案识别方法及*** |
CN107832765A (zh) * | 2017-09-13 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 对包括文字内容和图像内容的图片识别 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567548B2 (en) * | 1999-01-29 | 2003-05-20 | International Business Machines Corporation | Handwriting recognition system and method using compound characters for improved recognition accuracy |
-
2018
- 2018-08-31 CN CN201811008806.XA patent/CN109241904B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373519A (zh) * | 2007-08-20 | 2009-02-25 | 富士通株式会社 | 字符识别装置和方法 |
KR101388196B1 (ko) * | 2012-11-12 | 2014-04-23 | 재단법인대구경북과학기술원 | 모바일 단말기의 카메라 기반 필기 인식 방법 및 그 장치 |
CN103996057A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于多特征融合的实时手写体数字识别方法 |
CN104463101A (zh) * | 2014-11-06 | 2015-03-25 | 科大讯飞股份有限公司 | 用于文字性试题的答案识别方法及*** |
CN107832765A (zh) * | 2017-09-13 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 对包括文字内容和图像内容的图片识别 |
Also Published As
Publication number | Publication date |
---|---|
CN109241904A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241904B (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
US11710293B2 (en) | Target detection method and apparatus, computer-readable storage medium, and computer device | |
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
CN114387430B (zh) | 基于人工智能的图像描述生成方法、装置、设备及介质 | |
CN109285105B (zh) | 水印检测方法、装置、计算机设备和存储介质 | |
CN111950329A (zh) | 目标检测及模型训练方法、装置、计算机设备和存储介质 | |
CN110956171A (zh) | 铭牌自动识别方法、装置、计算机设备和存储介质 | |
CN112926654B (zh) | 预标注模型训练、证件预标注方法、装置、设备及介质 | |
CN113239874B (zh) | 基于视频图像的行为姿态检测方法、装置、设备及介质 | |
CN111191533B (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
AU2021354030B2 (en) | Processing images using self-attention based neural networks | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN109886719B (zh) | 基于网格的数据挖掘处理方法、装置和计算机设备 | |
CN113435594B (zh) | 安防检测模型训练方法、装置、设备及存储介质 | |
CN111178358A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113486175B (zh) | 文本分类方法、文本分类装置、计算机设备及存储介质 | |
CN111832561B (zh) | 基于计算机视觉的字符序列识别方法、装置、设备和介质 | |
CN113706481A (zh) | ***质量检测方法、装置、计算机设备和存储介质 | |
CN111666931A (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN113806613B (zh) | 训练图像集生成方法、装置、计算机设备及存储介质 | |
CN110929724A (zh) | 字符识别方法、装置、计算机设备和存储介质 | |
CN110580507A (zh) | 一种城市肌理分类识别方法 | |
CN113011132B (zh) | 竖排文字识别方法、装置、计算机设备和存储介质 | |
CN111709338B (zh) | 一种用于表格检测的方法、装置及检测模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |