CN110210581B - 一种手写文本识别方法及装置、电子设备 - Google Patents

一种手写文本识别方法及装置、电子设备 Download PDF

Info

Publication number
CN110210581B
CN110210581B CN201910349751.7A CN201910349751A CN110210581B CN 110210581 B CN110210581 B CN 110210581B CN 201910349751 A CN201910349751 A CN 201910349751A CN 110210581 B CN110210581 B CN 110210581B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
training
data
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349751.7A
Other languages
English (en)
Other versions
CN110210581A (zh
Inventor
韩茂琨
回艳菲
陈玥蓉
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910349751.7A priority Critical patent/CN110210581B/zh
Publication of CN110210581A publication Critical patent/CN110210581A/zh
Application granted granted Critical
Publication of CN110210581B publication Critical patent/CN110210581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及文字识别技术领域,揭示了一种手写文本识别方法及装置、电子设备,所述方法包括:获取待识别的手写文本图像;利用训练得到的卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据;通过卷积神经网络模型的递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,获得输出值;根据输出值和预设语义库获取手写文本图像对应的目标文本,通过卷积神经网络模型识别出手写文本图像对应的目标文本,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。

Description

一种手写文本识别方法及装置、电子设备
技术领域
本发明涉及文字识别技术领域,特别涉及一种手写文本识别方法及装置、电子设备。
背景技术
目前,在生活中、学习中或者工作中一般使用电脑或者手机记录信息,生成信息文本,便于存储和交流。但是大部分日常文件仍然是手写的,因此将手写文本归档至关重要,而由于文件中的手写文本信息难以识别,容易导致人们需要手动存储手写的文本,使得存储过程比较繁杂。
随着深度学习技术的出现,近年来基于深度学习的手写文字识别在方法和性能上得到了突破性的进展。目前基于深度学习的手写文本识别方法一般采用长短期记忆网络(Long Short-Term Memory,LSTM)和时序分类算法(Connectionist TemporalClassification,CTC)相结合的方式对神经网络模型进行训练,获得手写文本识别模型,然后可以利用手写文本识别模型对手写文字进行识别,获取到对应的文字。然而,在使用LSTM和CTC相结合的方式对神经网络模型进行训练和识别时,LSTM中的2D-LSTM层会消耗大量不必要的计算资源,增加计算成本。
发明内容
为了解决相关技术中存在的会消耗大量不必要的计算资源,增加计算成本的问题,本发明提供了一种手写文本识别方法及装置、电子设备。
本发明实施例第一方面公开了一种手写文本识别方法,所述方法包括:
获取待识别的手写文本图像;
利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;
通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值;
根据所述输出值和预设语义库获取所述手写文本图像对应的目标文本。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获取待识别的手写文本图像之前,所述方法还包括:
获取手写字训练样本,所述手写字训练样本包括手写字图像及与所述手写字图像关联的文字标签;
将所述手写字训练样本划分成训练集和测试集;
将所述训练集输入至构建的卷积神经网络训练模型,通过所述训练集对所述卷积神经网络训练模型进行训练;
将所述测试集输入至训练后的卷积神经网络训练模型,获取所述测试集包括的手写字图像对应的识别文字,基于所述识别文字和所述训练集包括的手写字图像关联的文字标签获取识别准确率,以及在所述识别准确率大于预设准确率时,将所述训练后的卷积神经网络训练模型作为所述卷积神经网络模型。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述将所述手写字训练样本划分成训练集和测试集之后,以及所述将所述训练集输入至构建的卷积神经网络训练模型之前,所述方法还包括:
对所述训练集包括的手写字图像进行预处理,所述预处理的方式包括旋转、平移、缩放、剪切、腐蚀及膨胀;
所述将所述训练集输入至构建的卷积神经网络训练模型,通过所述训练集对所述卷积神经网络训练模型进行训练,包括:
将预处理后的手写字图像输入至构建的卷积神经网络训练模型,通过所述预处理后的手写字图像与所述预处理后的手写字图像关联的文字标签对所述卷积神经网络训练模型进行训练。
作为一种可选的实施方式,在本发明实施例第一方面中,所述利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据,包括:
对训练得到的卷积神经网络模型的部分卷积层进行正则化处理;
利用所述卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述利用所述卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据之后,所述方法还包括:
对所述特征数据进行归一化处理;
利用激活函数对归一化处理后的特征数据进行激活,获得目标特征数据,并将所述目标特征数据传输至所述卷积神经网络模型的递归块;其中,所述激活函数为带泄露修正线性单元函数。
作为一种可选的实施方式,在本发明实施例第一方面中,所述通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据,包括:
通过所述卷积神经网络模型的递归块按照从左到右的方向对所述目标特征数据进行序列化处理,获得第一序列化数据,以及按照从右到左的方向对所述目标特征数据进行序列化处理,获得第二序列化数据,以及对所述第一序列化数据和所述第二序列化数据进行深度方向的串联处理,获得串联序列化数据。
作为一种可选的实施方式,在本发明实施例第一方面中,所述通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值,包括:
通过所述卷积神经网络模型的线性层将每一列所述串联序列化数据映射到所述输出标签,获得输出值;所述输出值的个数与所述串联序列化数据的列数相同。
本发明实施例第二方面公开了一种手写文本识别装置,所述装置包括:
第一获取单元,用于获取待识别的手写文本图像;
特征提取单元,用于利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
序列化单元,用于通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;
输出单元,用于通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值;
目标单元,用于根据所述输出值和预设语义库获取所述手写文本图像对应的目标文本。
本发明实施例第三方面公开了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现本发明实施例第一方面公开的一种手写文本识别方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种手写文本识别方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的手写文本识别方法包括如下步骤:获取待识别的手写文本图像;利用训练得到的卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据;通过卷积神经网络模型的递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,获得输出值;根据输出值和预设语义库获取手写文本图像对应的目标文本。
此方法下,在原模型结构的部分位置通过卷积层替代2D-LSTM层,可以利用卷积神经网络模型的卷积层对待识别的手写文本图像进行高阶特征提取,获得特征数据,然后通过递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据,再在线性层将串联序列化数据映射到输出标签,获得输出值,从而可以根据输出值和预设语义库获取手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例公开的一种装置的结构示意图;
图2是本发明实施例公开的一种手写文本识别方法的流程图;
图3是本发明实施例公开的另一种手写文本识别方法的流程图;
图4是本发明实施例公开的又一种手写文本识别方法的流程图;
图5是本发明实施例公开的一种手写文本识别装置的结构示意图;
图6是本发明实施例公开的另一种手写文本识别装置的结构示意图;
图7是本发明实施例公开的卷积神经网络模型的结构示意图;
图8是2D-LSTM层对手写文本图像进行特征提取与卷积层对手写文本图像进行特征提取的结果对比图;
图9是本发明实施例公开的卷积神经网络模型中卷积块的参数配置图;
图10是IAM和Rimes数据集上的测试错误率与消耗时间对比图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例一
本发明的实施环境可以是电子设备,例如智能手机、平板电脑、台式电脑。
图1是本发明实施例公开的一种装置的结构示意图。装置100可以是上述电子设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(StaticRandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理***,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在本发明实施例中,通信组件116经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在本发明实施例中,通信组件116还包括近场通信(Near Field Communication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio FrequencyIdentification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
实施例二
请参阅图2,图2是本发明实施例公开的一种手写文本识别方法的流程示意图。如图2所示该手写文本识别方法可以包括以下步骤:
201、获取待识别的手写文本图像。
本发明实施例中,可以通过电子设备的摄像头拍摄获得待识别的手写文本图像,也可以接收其它电子设备发送的待识别的手写文本图像,手写文本图像中至少包括留有字迹的书写文字。
作为一种可选的实施方式,在获取到待识别的手写文本图像之后,判断手写文本图像是否为彩色图像,若手写文本图像为彩色图像,则对手写文本图像进行灰度化处理,获得灰度图像,能够避免彩色图像对高阶特征提取的干扰,提高特征提取的有效性。
202、利用训练得到的卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据。
本发明实施例中,卷积神经网络模型包括卷积块、递归块和线性层,卷积块中包含卷积层和池化层,每个卷积块都包含一个卷积核尺寸为3*3,步长为1的卷积层,其中第n个卷积层的卷积核数量为16n。请参阅图7,图7是本发明实施例公开的卷积神经网络模型的结构图,其中,图7中710指示输入图像,720指示卷积神经网络模型的卷积块,卷积块720包括卷积层和最大池化层,730指示序列连接处理,740指示递归块中双向的长短期记忆网络层,750指示深度连接处理,760指示卷积神经网络模型的线性层。本发明实施例中公开的卷积神经网络模型包括5个卷积块,卷积神经网络模型中卷积块的参数配置可参阅图9,其中,第n个卷积层的卷积层维度为16n;在第1、2、3个卷积层需要将数据传送至最大池化层进行处理,在第4、5个卷积层不需要将数据传送至最大池化层;在第1、2个卷积层不需要进行正则化处理,在第3、4、5个卷积层需要进行正则化处理,正则化的比率为0.2。
本发明实施例中,利用卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,与2D-LSTM层对手写文本图像进行特征提取相比,可以减少计算消耗。假设一张图像高为H,宽为W,输入/输出通道数为C和D,S是卷积核的尺寸,那么处理同一张图片时,2D-LSTM层所需要的计算量为O((W+H)·D+C),而卷积层所需的计算量仅为O(C·S),由此可知,利用卷积层对手写文本图像进行特征提取的计算量远小于利用2D-LSTM层对手写文本图像进行特征提取的计算量。
具体地,分别利用2D-LSTM层和卷积层对某一手写文本图像进行特征提取,特征提取结果请参阅图8,图8为2D-LSTM层对手写文本图像进行特征提取与卷积层对手写文本图像进行特征提取的结果对比图,其中,图8中810是2D-LSTM层对手写文本图像进行特征提取的结果示意图,820是卷积层对手写文本图像进行特征提取的结果示意图,由图8可以看出,2D-LSTM层和卷积层的特征提取结果相差并不大,因此,在模型的某些位置(尤其是模型底层)可以用卷积层来代替2D-LSTM层,从而可以减少计算消耗,缩短识别和训练的时间。
203、通过卷积神经网络模型的递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据。
本发明实施例中,卷积神经网络模型的递归块由双向的1D-LSTM层组成,其中,卷积神经网络模型的递归块数量为5,所有1D-LSTM层的隐藏神经元个数为256。通过卷积神经网络模型的递归块对特征数据进行序列化处理,可以通过1D-LSTM层处理手写文本图像的每一列特征数据,获得序列化数据,然后对1D-LSTM层输出的序列化数据进行深度方向的串联处理,获得串联序列化数据,能够提高数据传输的准确度。
204、通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,获得输出值。
本发明实施例中,通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,可以获得手写文本图像中的文本对应的识别概率,该识别概率是指手写文本图像中的每一文字可能为某一具体文字的概率。如果识别概率大于预设识别概率,则获取对应的识别输出值,有助于提高识别结果的准确性。
举例来说,假设预设识别概率为85%,手写文本图像中包含“浪”字,获取识别概率大于预设识别概率的输出值,该输出值可能是“浪”或“狼”,即手写文本图像中“浪”识别为“浪”或“狼”的识别概率均大于85%,因此可能获得两个输出值“浪”或“狼”。
205、根据输出值和预设语义库获取手写文本图像对应的目标文本。
本发明实施例中,语义库是预先设置的用于对识别结果进行语义分析的知识库,语义分析是对识别结果进行上下文有关性质的分析。语义库是由大量的文本句子组成,目标文本是查询语义库后符合语义的与手写文本图像所对应的文字,其中,目标文本可以是字、词、句子、一篇文章等。
具体地,在获得输出值之后,还需要根据语义库进一步确定目标文本,如果手写文本图像中包含“浪”、“迹”、“天”以及“涯”,那么手写文本图像对应的识别结果可以为“浪”或“狼”、“迹”、“天”以及“涯”或“堐”,为了进一步确定存在两个或两个以上识别结果对应的手写文本图像中的目标文字,因此需查询语义库,根据语义库中收录的文本句子判断出更加准确的识别结果。通过查询语义库“海浪迹天涯”符合语义,则确定手写文本图像对应的目标文本为“浪”、“迹”、“天”以及“涯”,根据语义库确定目标文本,可以提高对手写文本图像识别的准确率。
可见,实施图2所描述的方法,能够通过改进神经网络模型的结构,在原模型结构的部分位置通过卷积层替代2D-LSTM层,得到卷积神经网络模型,可以利用卷积神经网络模型识别出手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。
实施例三
请参阅图3,图3是本发明实施例公开的另一种手写文本识别方法的流程示意图。如图3所示,该手写文本识别方法可以包括以下步骤:
301、获取手写字训练样本,手写字训练样本包括手写字图像及与手写字图像关联的文字标签。
本发明实施例中,手写字训练样本是预先收集的用于训练神经网络模型的手写字样本,手写字训练样本包括手写字图像及与手写字图像关联的文字标签。该手写字图像是指携带有不同人手写的文字的图像,且该手写字图像中的每一个文字都对应一个文字标签,即对应一个具体文字,以便对神经网络模型进行训练。
302、将手写字训练样本划分成训练集和测试集。
本发明实施例中,训练集(training set)是用于调整神经网络模型中的参数的数据。测试集(test set)是用于测试训练好的神经网络模型的识别准确率的数据。具体地,采用交叉验证方法将手写字训练样本划分成训练集和测试集,其中,交叉验证方法是一种常用的测试算法准确性的方法。本实施例中,采用交叉验证方法将手写字训练样本按照4:1的比例对进行分类,即将手写字训练样本分为5组,其中的4组手写字训练样本作为训练集,用于训练卷积神经网络训练模型,剩余的1组手写字训练样本作为测试集,用于验证训练好的神经网络模型的准确率。
作为一种可选的实施方式,将手写字训练样本划分成两个互斥的集合,其中一个作为训练集,留下的集合作为测试集,在划分过程中,保持样本的类别比例相似,比如手写字训练样本中含有500个正例,500个反例,当采用分层采样获取70%的样本的训练集和30%的样本的测试集时,则训练集中包含有350个正例和350个反例,测试集中有150个正例和150个反例。实施该实施方式,能够提高测试的可靠性。
303、对训练集包括的手写字图像进行预处理,该预处理的方式包括旋转、平移、缩放、剪切、腐蚀及膨胀。
本发明实施例中,对训练集包括的手写字图像进行旋转、平移、缩放、剪切、腐蚀及膨胀等操作,可以人为地增加训练样本,达到数据增强的效果,可以降低神经网络模型中过拟合发生的概率。
304、将预处理后的手写字图像输入至构建的卷积神经网络训练模型,通过预处理后的手写字图像与预处理后的手写字图像关联的文字标签对卷积神经网络训练模型进行训练。
本发明实施例中,将预处理后的手写字图像输入至构建的卷积神经网络训练模型,采用卷积神经网络训练模型中的卷积层和池化层可以对预处理后的手写字图像进行特征提取和处理,然后在卷积神经网络训练模型中的递归块进行数据处理,并将处理后的数据在卷积神经网络训练模型中的线性层进行映射获得输出结果,同时在递归块的每个1D-LSTM层之前及在线性层之前使用正则化处理(Dropout)方法,以提高模型的健壮性;之后将输出结果与预处理后的手写字图像关联的文字标签进行对比,在训练效果达不到预设要求时,调整卷积神经网络训练模型的各项参数,再对卷积神经网络训练模型不断进行训练,以使训练效果达到预设要求。
305、将测试集输入至训练后的卷积神经网络训练模型,获取测试集包括的手写字图像对应的识别文字,基于识别文字和训练集包括的手写字图像关联的文字标签获取识别准确率,以及在识别准确率大于预设准确率时,将训练后的卷积神经网络训练模型作为卷积神经网络模型。
具体地,卷积神经网络模型指经过测试集对训练后的卷积神经网络训练模型进行测试后确定的识别准确率符合预设准确率的模型,该卷积神经网络模型是可用于对手写字图像进行识别的模型。在卷积神经网络训练模型训练完成后,将测试集中每一手写字训练样本的手写字图像依次输入到卷积神经网络训练模型中,获取每个手写字图像对应的识别文字,其中,识别文字具体指手写字图像经过卷积神经网络训练模型识别得到的文字。
本发明实施例中,采用IAM database和Rimes dataset两个手写文本集分别对卷积神经网络训练模型进行训练和测试,结果如图10所示,图10是IAM和Rimes数据集上的测试错误率与消耗时间对比图,其中,图10中1010是在IAM数据集上的测试错误率与消耗时间对比图,1020是在Rimes数据集上的测试错误率与消耗时间对比图。本发明实施例中,1D-LSTM是单层的长短期记忆网络,2D-LSTM是双层的长短期记忆网络,从图10可以看出,相对于利用2D-LSTM层,利用1D-LSTM层在IAM数据集上验证和测试时,字符错误率和误码率明显减小,平均运行时间有大幅下降;以及相对于利用2D-LSTM层,利用1D-LSTM层在Rimes数据集上验证和测试时,字符错误率和误码率也明显减小,平均运行时间也有大幅下降,因此,使用该卷积神经网络模型能够大大减少识别时间,降低测试的错误率。
可以理解的是,在基于识别文字和训练集包括的手写字图像关联的文字标签获取识别准确率时,可以根据每一手写字图像对应的识别文字和文字标签判断该卷积神经网络训练模型对该手写字图像的识别是否准确,若准确,则将识别准确数量加1,然后根据公式:识别准确率=识别准确数量/测试集中手写字图像的数量,计算该卷积神经网络训练模型的识别准确率。若该卷积神经网络训练模型的识别准确率大于预设准确率(如90%),则确定该卷积神经网络训练模型为训练好的卷积神经网络模型;反之,若该卷积神经网络训练模型的识别准确率不大于预设准确率,则需重新进行卷积神经网络训练模型的训练,直至卷积神经网络训练模型的识别准确率符合要求,能够提高卷积神经网络模型的识别准确率。
步骤306~步骤310;其中,针对步骤306~步骤310的描述,请参照实施例二中针对步骤201~步骤205的详细描述,本发明实施例不再赘述。
可见,实施图3所描述的方法,能够通过改进神经网络模型的结构,在原模型结构的部分位置通过卷积层替代2D-LSTM层,并通过大量的手写字训练样本进行训练和测试得到卷积神经网络模型,可以利用卷积神经网络模型识别出手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。
实施例四
请参阅图4,图4是本发明实施例公开的又一种手写文本识别方法的流程示意图。如图4所示该手写文本识别方法可以包括以下步骤:
401、获取待识别的手写文本图像。
402、对训练得到的卷积神经网络模型的部分卷积层进行正则化处理。
本发明实施例中,在卷积神经网络模型的部分卷积层使用Dropout方法,使得在数据传递的过程中,随机地丢弃一些数据,防止重要数据的丢失,从而防止出现过拟合,增强模型的健壮性。
403、利用卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据。
404、对特征数据进行归一化处理。
本发明实施例中,归一化处理是保留所有的特征,减少特征数据的丢失,对卷积层获得特征数据进行归一化处理,能够保证特征数据的完整性,从而提高识别的准确性。
405、利用激活函数对归一化处理后的特征数据进行激活,获得目标特征数据,并将目标特征数据传输至卷积神经网络模型的递归块;其中,该激活函数为带泄露修正线性单元函数。
本发明实施例中,利用带泄露修正线性单元函数Leaky Rectifier Linear Units(LeakyReLU)对归一化处理后的特征数据进行激活,然后将激活后的数据传送至最大池化层,获得目标特征数据并传输至卷积神经网络模型的递归块,能够减小输入的手写文本图像的维度。
406、通过卷积神经网络模型的递归块按照从左到右的方向对目标特征数据进行序列化处理,获得第一序列化数据,以及按照从右到左的方向对目标特征数据进行序列化处理,获得第二序列化数据,以及对第一序列化数据和第二序列化数据进行深度方向的串联处理,获得串联序列化数据。
本发明实施例中,卷积神经网络模型的递归块中的双向1D-LSTM层是从左到右和从右到左两个方向处理输入图像的每一列数据,这两个方向处理得到的序列化数据会沿深度方向串联到一起,获得串联序列化数据,如果每个方向的深度都为D,那么递归块的输出深度为2D。
407、通过卷积神经网络模型的线性层将每一列串联序列化数据映射到输出标签,获得输出值;输出值的个数与串联序列化数据的列数相同。
本发明实施例中,输出值是手写文本图像中的文字对应的识别结果,一个输出值对应手写文本图像中的一个文字,所以,输出值的个数与串联序列化数据的列数相同。
408、根据输出值和预设语义库获取手写文本图像对应的目标文本。
可见,实施图4所描述的方法,能够通过改进神经网络模型的结构,在原模型结构的部分位置通过卷积层替代2D-LSTM层,得到卷积神经网络模型,可以利用卷积神经网络模型识别出手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。此外,还能够减小输入的手写文本图像的维度,保证特征数据的完整性,从而提高识别的准确性。
实施例五
请参阅图5,图5是本发明实施例公开的一种手写文本识别装置的结构示意图。如图5所示,该手写文本识别装置可以包括:第一获取单元501、特征提取单元502、序列化单元503、输出单元504以及目标单元505,其中,
第一获取单元501,用于获取待识别的手写文本图像。
本发明实施例中,可以通过电子设备的摄像头拍摄获得待识别的手写文本图像,也可以接收其它电子设备发送的待识别的手写文本图像,手写文本图像中至少包括留有字迹的书写文字。
作为一种可选的实施方式,第一获取单元501用于在获取到待识别的手写文本图像之后,判断手写文本图像是否为彩色图像,若手写文本图像为彩色图像,则对手写文本图像进行灰度化处理,获得灰度图像,能够避免彩色图像对高阶特征提取的干扰,提高特征提取的有效性。
特征提取单元502,用于利用训练得到的卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据。
本发明实施例中,利用卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,与2D-LSTM层对手写文本图像进行特征提取相比,可以减少计算消耗。假设一张图像高为H,宽为W,输入/输出通道数为C和D,S是卷积核的尺寸,那么处理同一张图片时,2D-LSTM层所需要的计算量为O((W+H)·D+C),而卷积层所需的计算量仅为O(C·S),由此可知,利用卷积层对手写文本图像进行特征提取的计算量远小于利用2D-LSTM层对手写文本图像进行特征提取的计算量。因此,在模型的某些位置(尤其是模型底层)可以用卷积层来代替2D-LSTM层,从而可以减少计算消耗,缩短识别和训练的时间。
序列化单元503,用于通过卷积神经网络模型的递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据。
本发明实施例中,卷积神经网络模型的递归块由双向的1D-LSTM层组成,其中,卷积神经网络模型的递归块数量为5,所有1D-LSTM层的隐藏神经元个数为256。通过卷积神经网络模型的递归块对特征数据进行序列化处理,可以通过1D-LSTM层处理手写文本图像的每一列特征数据,获得序列化数据,然后对1D-LSTM层输出的序列化数据进行深度方向的串联处理,获得串联序列化数据,能够提高数据传输的准确度。
输出单元504,用于通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,获得输出值。
本发明实施例中,通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,可以获得手写文本图像中的文本对应的识别概率,该识别概率是指手写文本图像中的每一文字可能为某一具体文字的概率。如果识别概率大于预设识别概率,则获取对应的识别输出值,有助于提高识别结果的准确性。
举例来说,假设预设识别概率为85%,手写文本图像中包含“浪”字,获取识别概率大于预设识别概率的输出值,该输出值可能是“浪”或“狼”,即手写文本图像中“浪”识别为“浪”或“狼”的识别概率均大于85%,因此可能获得两个输出值“浪”或“狼”。
目标单元505,用于根据输出值和预设语义库获取手写文本图像对应的目标文本。
本发明实施例中,语义库是预先设置的用于对识别结果进行语义分析的知识库,语义分析是对识别结果进行上下文有关性质的分析。语义库是由大量的文本句子组成,目标文本是查询语义库后符合语义的与手写文本图像所对应的文字,其中,目标文本可以是字、词、句子、一篇文章等。
具体地,在获得输出值之后,还需要根据语义库进一步确定目标文本,如果手写文本图像中包含“浪”、“迹”、“天”以及“涯”,那么手写文本图像对应的识别结果可以为“浪”或“狼”、“迹”、“天”以及“涯”或“堐”,为了进一步确定存在两个或两个以上识别结果对应的手写文本图像中的目标文字,因此需查询语义库,根据语义库中收录的文本句子判断出更加准确的识别结果。通过查询语义库“海浪迹天涯”符合语义,则确定手写文本图像对应的目标文本为“浪”、“迹”、“天”以及“涯”,根据语义库确定目标文本,可以提高对手写文本图像识别的准确率。
可见,实施图5所描述的手写文本识别装置,能够通过改进神经网络模型的结构,在原模型结构的部分位置通过卷积层替代2D-LSTM层,得到卷积神经网络模型,可以利用卷积神经网络模型识别出手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。
实施例六
请参阅图6,图6是本发明实施例公开的另一种手写文本识别装置的结构示意图。图6所示的手写文本识别装置是由图5所示的手写文本识别装置进行优化得到的。与图5所示的手写文本识别装置相比较,图6所示的手写文本识别装置还可以包括:第二获取单元506、划分单元507、训练单元508、测试单元509以及预处理单元510,其中,
第二获取单元506,用于获取手写字训练样本,手写字训练样本包括手写字图像及与手写字图像关联的文字标签。
本发明实施例中,手写字训练样本是预先收集的用于训练神经网络模型的手写字样本,手写字训练样本包括手写字图像及与手写字图像关联的文字标签。该手写字图像是指携带有不同人手写的文字的图像,且该手写字图像中的每一个文字都对应一个文字标签,即对应一个具体文字,以便对神经网络模型进行训练。
划分单元507,用于将手写字训练样本划分成训练集和测试集。
本发明实施例中,训练集(training set)是用于调整神经网络模型中的参数的数据。测试集(test set)是用于测试训练好的神经网络模型的识别准确率的数据。具体地,采用交叉验证方法将手写字训练样本划分成训练集和测试集,其中,交叉验证方法是一种常用的测试算法准确性的方法。本实施例中,采用交叉验证方法将手写字训练样本按照4:1的比例对进行分类,即将手写字训练样本分为5组,其中的4组手写字训练样本作为训练集,用于训练卷积神经网络训练模型,剩余的1组手写字训练样本作为测试集,用于验证训练好的神经网络模型的准确率。
作为一种可选的实施方式,划分单元507用于将手写字训练样本划分成两个互斥的集合,其中一个作为训练集,留下的集合作为测试集,在划分过程中,保持样本的类别比例相似,比如手写字训练样本中含有500个正例,500个反例,当采用分层采样获取70%的样本的训练集和30%的样本的测试集时,则训练集中包含有350个正例和350个反例,测试集中有150个正例和150个反例。实施该实施方式,能够提高测试的可靠性。
训练单元508,用于将训练集输入至构建的卷积神经网络训练模型,通过训练集对卷积神经网络训练模型进行训练。
本发明实施例中,将预处理后的手写字图像输入至构建的卷积神经网络训练模型,采用卷积神经网络训练模型中的卷积层和池化层可以对预处理后的手写字图像进行特征提取和处理,然后在卷积神经网络训练模型中的递归块进行数据处理,并将处理后的数据在卷积神经网络训练模型中的线性层进行映射获得输出结果,同时在递归块的每个1D-LSTM层之前及在线性层之前使用正则化处理(Dropout)方法,以提高模型的健壮性;之后将输出结果与预处理后的手写字图像关联的文字标签进行对比,在训练效果达不到预设要求时,调整卷积神经网络训练模型的各项参数,再对卷积神经网络训练模型不断进行训练,以使训练效果达到预设要求。
测试单元509,用于将测试集输入至训练后的卷积神经网络训练模型,获取测试集包括的手写字图像对应的识别文字,基于识别文字和训练集包括的手写字图像关联的文字标签获取识别准确率,以及在识别准确率大于预设准确率时,将训练后的卷积神经网络训练模型作为卷积神经网络模型。
具体地,卷积神经网络模型指经过测试集对训练后的卷积神经网络训练模型进行测试后确定的识别准确率符合预设准确率的模型,该卷积神经网络模型是可用于对手写字图像进行识别的模型。在卷积神经网络训练模型训练完成后,将测试集中每一手写字训练样本的手写字图像依次输入到卷积神经网络训练模型中,获取每个手写字图像对应的识别文字,其中,识别文字具体指手写字图像经过卷积神经网络训练模型识别得到的文字。
本发明实施例中,采用IAM database和Rimes dataset两个手写文本集分别对卷积神经网络训练模型进行训练和测试,结果如图10所示,图10是IAM和Rimes数据集上的测试错误率与消耗时间对比图,其中,图10中1010是在IAM数据集上的测试错误率与消耗时间对比图,1020是在Rimes数据集上的测试错误率与消耗时间对比图。本发明实施例中,1D-LSTM是单层的长短期记忆网络,2D-LSTM是双层的长短期记忆网络,从图10可以看出,相对于利用2D-LSTM层,利用1D-LSTM层在IAM数据集上验证和测试时,字符错误率和误码率明显减小,平均运行时间有大幅下降;以及相对于利用2D-LSTM层,利用1D-LSTM层在Rimes数据集上验证和测试时,字符错误率和误码率也明显减小,平均运行时间也有大幅下降,因此,使用该卷积神经网络模型能够大大减少识别时间,降低测试的错误率。
可以理解的是,在基于识别文字和训练集包括的手写字图像关联的文字标签获取识别准确率时,可以根据每一手写字图像对应的识别文字和文字标签判断该卷积神经网络训练模型对该手写字图像的识别是否准确,若准确,则将识别准确数量加1,然后根据公式:识别准确率=识别准确数量/测试集中手写字图像的数量,计算该卷积神经网络训练模型的识别准确率。若该卷积神经网络训练模型的识别准确率大于预设准确率(如90%),则确定该卷积神经网络训练模型为训练好的卷积神经网络模型;反之,若该卷积神经网络训练模型的识别准确率不大于预设准确率,则需重新进行卷积神经网络训练模型的训练,直至卷积神经网络训练模型的识别准确率符合要求,能够提高卷积神经网络模型的识别准确率。
预处理单元510,用于在划分单元507将手写字训练样本划分成训练集和测试集之后,以及训练单元508将训练集输入至构建的卷积神经网络训练模型之前,对训练集包括的手写字图像进行预处理,预处理的方式包括旋转、平移、缩放、剪切、腐蚀及膨胀。
本发明实施例中,对训练集包括的手写字图像进行旋转、平移、缩放、剪切、腐蚀及膨胀等操作,可以人为地增加训练样本,达到数据增强的效果,可以降低神经网络模型中过拟合发生的概率。
训练单元508用于将训练集输入至构建的卷积神经网络训练模型,通过训练集对卷积神经网络训练模型进行训练的方式具体为:
训练单元508,用于将预处理后的手写字图像输入至构建的卷积神经网络训练模型,通过预处理后的手写字图像与预处理后的手写字图像关联的文字标签对卷积神经网络训练模型进行训练。
特征提取单元502用于利用训练得到的卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据的方式具体为:
特征提取单元502,用于对训练得到的卷积神经网络模型的部分卷积层进行正则化处理;以及利用卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据。
特征提取单元502,还用于在利用卷积神经网络模型的卷积层对手写文本图像进行高阶特征提取,获得特征数据之后,对特征数据进行归一化处理;以及利用激活函数对归一化处理后的特征数据进行激活,获得目标特征数据,并将目标特征数据传输至卷积神经网络模型的递归块;其中,激活函数为带泄露修正线性单元函数。
序列化单元503用于通过卷积神经网络模型的递归块对特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据的方式具体为:
序列化单元503,用于通过卷积神经网络模型的递归块按照从左到右的方向对目标特征数据进行序列化处理,获得第一序列化数据,以及按照从右到左的方向对目标特征数据进行序列化处理,获得第二序列化数据,以及对第一序列化数据和第二序列化数据进行深度方向的串联处理,获得串联序列化数据。
输出单元504用于通过卷积神经网络模型的线性层将串联序列化数据映射到输出标签,获得输出值的方式具体为:
输出单元504,用于通过卷积神经网络模型的线性层将每一列串联序列化数据映射到输出标签,获得输出值;输出值的个数与串联序列化数据的列数相同。
可见,实施图6所描述的手写文本识别装置,能够通过改进神经网络模型的结构,在原模型结构的部分位置通过卷积层替代2D-LSTM层,并通过大量的手写字训练样本进行训练和测试得到卷积神经网络模型,可以利用卷积神经网络模型识别出手写文本图像对应的目标文本,无需在神经网络模型结构使用2D-LSTM层,能够在不影响检测精度的前提下,极大地减少计算成本,提高模型的训练速度和识别速度。此外,还能够减小输入的手写文本图像的维度,保证特征数据的完整性,从而提高识别的准确性。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的一种手写文本识别方法。
该电子设备可以是图1所示装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的一种手写文本识别方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (7)

1.一种手写文本识别方法,其特征在于,所述方法包括:
获取待识别的手写文本图像;
利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;
通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值;
根据所述输出值和预设语义库获取所述手写文本图像对应的目标文本;
其中,所述利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据,包括:对训练得到的卷积神经网络模型的部分卷积层进行正则化处理;利用所述卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
所述通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据,包括:通过所述卷积神经网络模型的递归块按照从左到右的方向对所述特征数据进行序列化处理,获得第一序列化数据,以及按照从右到左的方向对所述特征数据进行序列化处理,获得第二序列化数据,以及对所述第一序列化数据和所述第二序列化数据进行深度方向的串联处理,获得串联序列化数据;
所述通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值,包括:通过所述卷积神经网络模型的线性层将每一列所述串联序列化数据映射到所述输出标签,获得输出值;所述输出值的个数与所述串联序列化数据的列数相同。
2.根据权利要求1所述的方法,其特征在于,在所述获取待识别的手写文本图像之前,所述方法还包括:
获取手写字训练样本,所述手写字训练样本包括手写字图像及与所述手写字图像关联的文字标签;
将所述手写字训练样本划分成训练集和测试集;
将所述训练集输入至构建的卷积神经网络训练模型,通过所述训练集对所述卷积神经网络训练模型进行训练;
将所述测试集输入至训练后的卷积神经网络训练模型,获取所述测试集包括的手写字图像对应的识别文字,基于所述识别文字和所述训练集包括的手写字图像关联的文字标签获取识别准确率,以及在所述识别准确率大于预设准确率时,将所述训练后的卷积神经网络训练模型作为所述卷积神经网络模型。
3.根据权利要求2所述的方法,其特征在于,在所述将所述手写字训练样本划分成训练集和测试集之后,以及所述将所述训练集输入至构建的卷积神经网络训练模型之前,所述方法还包括:
对所述训练集包括的手写字图像进行预处理,所述预处理的方式包括旋转、平移、缩放、剪切、腐蚀及膨胀;
所述将所述训练集输入至构建的卷积神经网络训练模型,通过所述训练集对所述卷积神经网络训练模型进行训练,包括:
将预处理后的手写字图像输入至构建的卷积神经网络训练模型,通过所述预处理后的手写字图像与所述预处理后的手写字图像关联的文字标签对所述卷积神经网络训练模型进行训练。
4.根据权利要求1所述的方法,其特征在于,在所述利用所述卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据之后,所述方法还包括:
对所述特征数据进行归一化处理;
利用激活函数对归一化处理后的特征数据进行激活,获得目标特征数据,并将所述目标特征数据传输至所述卷积神经网络模型的递归块;其中,所述激活函数为带泄露修正线性单元函数。
5.一种手写文本识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取待识别的手写文本图像;
特征提取单元,用于利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
序列化单元,用于通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据;
输出单元,用于通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值;
目标单元,用于根据所述输出值和预设语义库获取所述手写文本图像对应的目标文本;
其中,所述利用训练得到的卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据,包括:对训练得到的卷积神经网络模型的部分卷积层进行正则化处理;利用所述卷积神经网络模型的卷积层对所述手写文本图像进行高阶特征提取,获得特征数据;
所述通过所述卷积神经网络模型的递归块对所述特征数据进行序列化处理及对序列化处理得到的序列化数据进行深度方向的串联处理,获得串联序列化数据,包括:通过所述卷积神经网络模型的递归块按照从左到右的方向对所述特征数据进行序列化处理,获得第一序列化数据,以及按照从右到左的方向对所述特征数据进行序列化处理,获得第二序列化数据,以及对所述第一序列化数据和所述第二序列化数据进行深度方向的串联处理,获得串联序列化数据;
所述通过所述卷积神经网络模型的线性层将所述串联序列化数据映射到输出标签,获得输出值,包括:通过所述卷积神经网络模型的线性层将每一列所述串联序列化数据映射到所述输出标签,获得输出值;所述输出值的个数与所述串联序列化数据的列数相同。
6.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~4中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~4任一项所述的手写文本识别方法。
CN201910349751.7A 2019-04-28 2019-04-28 一种手写文本识别方法及装置、电子设备 Active CN110210581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349751.7A CN110210581B (zh) 2019-04-28 2019-04-28 一种手写文本识别方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349751.7A CN110210581B (zh) 2019-04-28 2019-04-28 一种手写文本识别方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN110210581A CN110210581A (zh) 2019-09-06
CN110210581B true CN110210581B (zh) 2023-11-24

Family

ID=67786599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349751.7A Active CN110210581B (zh) 2019-04-28 2019-04-28 一种手写文本识别方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN110210581B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796137A (zh) * 2019-10-10 2020-02-14 中国建设银行股份有限公司 一种识别图像的方法和装置
CN110991446B (zh) * 2019-11-22 2020-10-23 上海欧冶物流股份有限公司 标签识别方法、装置、设备及计算机可读存储介质
CN111242024A (zh) * 2020-01-11 2020-06-05 北京中科辅龙科技股份有限公司 基于机器学习识别图纸内图例及文字的方法及***
CN114902648A (zh) * 2020-01-30 2022-08-12 索尼半导体解决方案公司 固态成像装置、电子设备和成像***
CN113450433A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 图片生成方法、装置、计算机设备和介质
CN111652093B (zh) * 2020-05-21 2023-10-24 中国工商银行股份有限公司 文本图像处理方法及装置
CN111931672A (zh) * 2020-08-17 2020-11-13 珠海大横琴科技发展有限公司 字迹识别方法、装置、计算机设备及存储介质
CN112085022B (zh) * 2020-09-09 2024-02-13 上海蜜度科技股份有限公司 一种用于识别文字的方法、***及设备
CN114841236B (zh) * 2022-03-28 2024-04-23 中国科学院宁波材料技术与工程研究所 一种基于深度学习的柔性压力传感阵列图的识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
CN108830848A (zh) * 2018-05-25 2018-11-16 深圳科亚医疗科技有限公司 利用计算机确定血管上的血管状况参数的序列的装置和***
CN109063706A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016197381A1 (en) * 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN107636691A (zh) * 2015-06-12 2018-01-26 商汤集团有限公司 用于识别图像中的文本的方法和设备
CN107704924A (zh) * 2016-07-27 2018-02-16 中国科学院自动化研究所 同步自适应时空特征表达学习模型的构建方法及相关方法
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
CN108830848A (zh) * 2018-05-25 2018-11-16 深圳科亚医疗科技有限公司 利用计算机确定血管上的血管状况参数的序列的装置和***
CN109063706A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
CN109271967A (zh) * 2018-10-16 2019-01-25 腾讯科技(深圳)有限公司 图像中文本的识别方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词注意力卷积神经网络模型的情感分析研究;王盛玉 等;中文信息学报;第32卷(第09期);第123-131页 *

Also Published As

Publication number Publication date
CN110210581A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210581B (zh) 一种手写文本识别方法及装置、电子设备
CN109583325B (zh) 人脸样本图片标注方法、装置、计算机设备及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US10665204B1 (en) Automatically adjusting screen brightness based on screen content
CN109472207B (zh) 情绪识别方法、装置、设备及存储介质
US20190155622A1 (en) Method for Preloading Application, Terminal Device, and Medium
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
US20200196028A1 (en) Video highlight recognition and extraction tool
CN106663189A (zh) 用于叠加的笔迹的识别技术的***和方法
CN111950279B (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN113435594B (zh) 安防检测模型训练方法、装置、设备及存储介质
CN109919295B (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN111666931B (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
CN111291761B (zh) 用于识别文字的方法和装置
CN114333881B (zh) 基于环境自适应的音频传输降噪方法、设备及介质
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN109102549B (zh) 图像光源颜色的检测方法、装置、计算机设备及存储介质
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN116129881A (zh) 语音任务处理方法、装置、电子设备及存储介质
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质
CN115081457A (zh) 一种基于人工智能技术的信息处理方法及***
EP3785145B1 (en) System and method for automatic language detection for handwritten text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant