CN111753802B - 识别方法及装置 - Google Patents

识别方法及装置 Download PDF

Info

Publication number
CN111753802B
CN111753802B CN202010640068.1A CN202010640068A CN111753802B CN 111753802 B CN111753802 B CN 111753802B CN 202010640068 A CN202010640068 A CN 202010640068A CN 111753802 B CN111753802 B CN 111753802B
Authority
CN
China
Prior art keywords
character
feature vector
image
training
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010640068.1A
Other languages
English (en)
Other versions
CN111753802A (zh
Inventor
张炳旺
郭常圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202010640068.1A priority Critical patent/CN111753802B/zh
Publication of CN111753802A publication Critical patent/CN111753802A/zh
Application granted granted Critical
Publication of CN111753802B publication Critical patent/CN111753802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • G06V40/33Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供识别方法及装置,其中所述识别方法包括:获取待识别文字图像;将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果;本申请提供的识别方法,可以实现识别手写文字的同时检测手写文字的正确性,从而丰富更多的应用场景,并且可以有效提高识别效率和识别准确率。

Description

识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及识别方法及装置。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
随着自然语言处理技术的发展,在越来越多的场景中所应用,比如语音识别、文字识别或错字判别场景等;然而,在对汉字进行错误判别的场景中,汉字书写错误的形式包含很多种,如偏旁部首组合错误、笔画笔顺错误、多笔画错误、少笔画错误、结构错误等,错字往往形似正确的字,不易区分,且错误形式多样,无法预估,难以归纳总结,因此亟需一种有效的方案以解决该问题。
发明内容
有鉴于此,本申请实施例提供了一种识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种识别装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种识别方法,包括:
获取待识别文字图像;
将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;
将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
可选的,所述根据所述文字特征生成中间特征向量,包括:
将所述文字特征输入至所述文字识别模型中的归一化层进行归一化处理,获得所述中间特征向量。
可选的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果,包括:
将所述多维特征向量输入至所述文字识别模型中的文字识别模块,经过所述文字识别模块中的输出层对所述多维特征向量进行向量转换,获得所述待识别文字图像中文字的识别信息;
在所述识别信息中选择概率最高的编号确定为目标编号;
基于所述目标编号查询预设的文字字典,根据查询结果确定目标文字;
将所述目标文字确定为对所述待识别文字图像中文字的识别结果并输出。
可选的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果步骤执行之前,还包括:
将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量;
相应的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果,包括:
将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果。
可选的,所述将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量,包括:
将所述多维特征向量输入至所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量;
根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量。
可选的,所述将所述多维特征向量输入到所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量,包括:
将所述多维特征向量输入至所述独热编码层进行编码处理,获得编码特征向量;
通过所述错字判别模块中的嵌入层对所述编码特征向量进行降维处理,生成所述稠密特征向量。
可选的,所述根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量,包括:
将所述稠密特征向量和所述中间特征向量输入至所述错字判别模块中的拼接层进行拼接处理,生成所述拼接特征向量;
通过所述错字判别模块中的全连接层对所述拼接特征向量进行处理,获得所述二维特征向量。
可选的,所述将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果,包括:
将所述二维特征向量输入至所述错字判别模块中的输出层进行向量转换,输出所述待识别文字图像中文字的正确概率和错误概率,作为所述识别结果。
可选的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果步骤执行之后,还包括:
获取上传所述待识别文字图像的用户提交的选择指令;
在所述选择指令为错字识别指令的情况下,提取所述待识别文字图像的图像风格数据;
根据所述识别结果确定所述文字对应的正确文字,并基于所述图像风格数据和所述正确文字生成正确文字图像;
对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户。
可选的,所述对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户,包括:
将所述正确文字图像和所述待识别文字图像进行比对,根据比对结果确定区别位置;
对所述区别位置进行高亮标注,将标注结果作为所述比对结果发送至所述用户。
可选的,所述文字识别模型,采用如下方式训练:
获取训练图像;
对所述训练图像进行标注,获得第一维特征和第二维特征;
根据所述第一维特征和所述训练图像组成第一训练样本,以及根据所述第二维特征和所述训练图像组成第二训练样本;
基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,以及基于所述第二训练样本对所述待训练文字识别模型中的错字判别模块进行训练;
根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型;所述特征提取模块包含所述特征提取层。
可选的,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
在基于所述第一训练样本对所述特征提取模块和所述文字识别模块进行训练的过程中,通过第一损失函数计算所述特征提取模块第一损失值,以及计算所述文字识别模块的第二损失值;
基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,直至满足训练停止条件。
可选的,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
对所述第一训练样本中的所述训练图像进行归一化处理,获得样本特征向量;
计算所述样本特征向量的中心特征向量,并根据所述中心特征向量分别初始化所述特征提取模块和所述文字识别模块的嵌入层的权重矩阵。
可选的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
在所述特征提取模块、所述文字识别模块和所述错字判别模块训练完成之后,根据所述第一训练样本和所述第二训练样本对所述待训练文字识别模型进行深度训练;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
根据深度训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型。
可选的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
获取训练数据,以及所述训练数据对应的目标数据;
根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,根据训练结果提取所述待训练文字识别模型的模型参数并保存;
获取真实训练数据以及所述真实训练数据对应的真实目标数据;
根据所述真实训练数据和所述真实目标数据对所述待训练文字识别模型进行二次训练,获得中间文字识别模型;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
基于所模型参数对所述中间文字识别模型进行调整,根据调整结果获得所述文字识别模型。
可选的,所述训练数据包括下述至少一项:汉字数据;
相应的,所述目标数据包括下述至少一项:错字数据;所述错字数据由字符编辑程序生成。
可选的,所述根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,包括:
解析所述训练数据,获得所述训练数据的训练风格数据;
基于所述训练风格数据对所述目标数据进行调整,并根据调整结果和所述训练数据对所述待训练文字识别模型进行一次训练。
根据本申请实施例的第二方面,提供了一种识别装置,包括:
获取单元,被配置为获取待识别文字图像;
提取单元,被配置为将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
处理单元,被配置为根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;
输出单元,被配置为将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述识别方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述识别的步骤。
本申请提供的识别方法,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现了可以准确的对图像中的文字进行识别,并且通过所述文字识别模型进行文字识别,可以避免形似的文字出现识别不准确的问题,进一步提高了文字识别准确率。
附图说明
图1是本申请一实施例提供的第一种识别方法的流程图;
图2是本申请一实施例提供的第一种识别方法的示意图;
图3是本申请一实施例提供的第一种识别方法中图像的示意图;
图4是本申请一实施例提供的第一种识别方法中文字字典的示意图;
图5是本申请一实施例提供的第二种识别方法的流程图;
图6是本申请一实施例提供的第二种识别方法中图像的示意图;
图7是本申请一实施例提供的第三种识别方法的流程图;
图8是本申请一实施例提供的第三种识别方法的示意图;
图9是本申请一实施例提供的一种文字识别模型训练方法的流程图;
图10是本申请一实施例提供的一种文字识别模型训练方法中错字的示意图;
图11是本申请一实施例提供的一种文字识别模型训练方法中图像风格迁移过程的示意图;
图12是本申请一实施例提供的一种识别装置的结构示意图;
图13是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
模式识别:模式识别就是用计算机通过计算的方法根据样本的特征对样本进行分类。
迁移学习:把已学训练好的模型参数迁移到新的模型来帮助新模型训练。
独热编码(onehot):独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
Softmax:Softmax模型是logistic模型在多分类问题上的推广,一般用于计算多分类问题的输出概率。
图像风格迁移:是指利用算法学习一种画作的风格,然后再把这种风格应用到另外一张图片上的技术。
生成对抗网络(Gan):是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。
CycleGan:是生成对抗网络的一种设计方式,广泛应用于图像风格迁移等领域。
神经网络:包含卷积神经网络(CNN)、残差网络(ResNet)。
度量学习(Metric Learning):即相似度学习,可以输出每一张图片的特征向量。
AMSoftmax:即Additive Margin Softmax,属于度量学习的一种,是用于分类问题的一种缩小类内距离增大类间距离的策略。
嵌入(Embedding):是一个将离散(稀疏)向量转为连续(稠密)向量的一种方式,可以减少离散向量的空间维数。
在本申请中,提供了一种识别方法。本申请同时涉及一种识别装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
下述为本申请提供的识别方法在文字识别场景中的实施例:
图1是本申请一实施例提供的第一种识别方法的流程图,图2是本申请一实施例提供的第一种识别方法的示意图,图3是本申请一实施例提供的一种识别方法中图像的示意图,图4是本申请一实施例提供的一种识别方法中文字字典的示意图;其中图1具体包括以下步骤:
步骤S102,获取待识别文字图像。
实际应用中,由于汉字的笔画复杂,形近字数量多,手写汉字的形式更加多样化,使用深度神经网络技术做汉字识别的方法虽然比较多,但都存在着无法有效对汉字进行识别,虽然可以通过卷积神经网络加中心损失的方法对相似手写汉字进行识别,通过引入度量学习中心损失函数到卷积神经网络,再使用交叉熵以及中心损失作为卷积神经网络的联合损失,使得模型学习到更加具备鉴别能力的特征,减少同类样本之间的距离,增加不同样本之间的距离,但是,该方法不是一个端到端的方法,形近字识别方法只能在挑选的150个汉字上实现,因此解决汉字识别是重中之重的一个问题。
参见图2所示,本申请提供的识别方法,为了能够提高文字识别的准确率,以及可以满足汉字识别,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现了可以准确的对图像中的文字进行识别,并且通过所述文字识别模型进行文字识别,可以避免形似的文字出现识别不准确的问题,进一步提高了文字识别准确率。
本实施例将以文字为汉字为例,对本申请提供的识别方法进行描述,实际应用中,文字还可以蒙古字,韩国字等,具体实现方式均可参见汉字对应的实施例的描述内容,本申请在此不作过多赘述。
具体实施时,在汉字识别场景中,由于汉字数量较多,并且形近字的相似度较高,例如“龙”和“尤”,“人”和“入”或“已”和“己”都是非常相近的文字,并且书写方式也基本相同,故在进行汉字识别时,很容易造成识别不准确的问题;比如在汉字识别场景中,用户通过手写的方式书写了一段话,此时需要对用户手写的汉字进行识别,如果识别不准确将造成无法正确识别用户的意图;基于此,为了能够提高汉字识别的准确率,从而正确的理解用户表达的意图,可以通过本申请提供的文字识别模型实现汉字的识别。
具体的,所述待识别文字图像具体是指包含待识别文字的图像,可以是用户上传的图像,也可以是根据前端业务通过图像采集设备采集的图像,此时说明需要对待识别文字图像中的文字进行识别。
例如,在汉字识别场景中,需要对历史手写档案进行整理,如果通过人工进行整理,将需要大量的人力和物力,比较浪费资源,此时历史手写档案整理人员可以通过对历史手写档案进行拍摄,采集包含档案中手写汉字的图像,并上传到服务端进行识别,实现同时对档案中的全部手写汉字进行识别,提高识别效率的同时,保证识别准确率。
步骤S104,将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征。
具体的,在上述获取所述待识别文字图像的基础上,进一步的,此时说明需要对所述待识别文字图像中的文字进行识别,则将所述待识别文字图像输入至所述文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征,以用于后续文字识别。
实际应用中,所述特征提取层属于所述文字识别模型中的特征提取模块,所述特征提取模块使用深度神经网络实现特征提取,从而可以实现后续对待识别文字图像中的文字进行正确的识别;具体实施时,所述文字识别模型还包含输入层,实现可以将输入的图像进行转换,满足特征提取模块的输入,实现更加准确的进行文字的识别。
沿用上例,档案整理人员上传的待识别汉字图像如图3中(a)所示,此时需要对图3中(a)所示的图像中汉字进行识别,则将待识别汉字图像输入到文字识别模型,经过文字识别模型中的输入层将图像转换为深度神经网络的输入,之后通过深度神经网络进行特征提取,获得待识别汉字图像中的文字特征,即提取图3中(a)所示的图像中“一件心事,想开了,固然很好”对应的文字特征,以用于后续文字识别。
步骤S106,根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量。
具体的,在上述提取所述待识别文字图像中的文字特征的基础上,进一步的,将继续对所述待识别文字图像中的文字进行识别,此时将根据所述文字特征生成中间特征向量,之后通过文字识别模型中的全连接层对所述中间特征向量进行全连接处理,实现获得所述待识别文字图像中文字对应的多维特征向量。
进一步的,根据所述文字特征生成所述中间特征向量的过程中,需要根据所述文字识别模型中的归一化层实现,本实施例中,具体实现方式如下所述:
将所述文字特征输入至所述文字识别模型中的归一化层进行归一化处理,获得所述中间特征向量。
实际应用中,所述归一化层的目的是为了能够避免一些不必要的数值问题,可以实现使得文字识别模型快速的收敛,从而保证输出的结果更加准确;基于此,在获得所述待识别文字图像的文字特征之后,将所述文字特征输入至所述文字识别模型中的归一化层进行归一化处理,获得所述中间特征向量,从而实现影响输出结果的目的,提高模型识别准确率。
更进一步的,通过所述归一化层将所述文字特征进行归一化处理为中间特征向量后,此时进入文字识别阶段,故将所述中间特征向量输入至所述文字识别模型中的全连接层进行处理,获得所述多维特征向量,即将所述中间特征向量输入至所述文字识别模型中的文字识别模块,由所述文字识别模块中的全连接层对所述中间特征向量进行全连接处理,从而获得所述多维特征向量。
具体实施时,所述全连接层对所述中间特征向量进行处理,具体是指预测待识别文字图像中的文字是n个汉字中各个汉字的概率(n为正整数),即通过多维特征向量表示待识别文字图像中的文字是n个汉字中各个汉字的概率;从而方便后续输出层将多维特征向量转换为概率形式,获得待识别文字图像中文字的识别结果。
沿用上例,在提取到图3中(a)所示的图像中“一件心事,想开了,固然很好”对应的文字特征的基础上,将文字特征输入到文字识别模型中的归一化层进行归一化处理,获得各个文字特征对应的1024维特征向量,即“一”对应的1024维特征向量,“件”对应的1024维特征向量,“心”对应的1024维特征向量……,“好”对应的1024维特征向量,之后将各个文字特征对应的1024维特征向量输入到汉字识别模块中的全连接层进行处理,获得各个文字的5000维特征向量,即“一”对应的5000维特征向量,“件”对应的5000维特征向量,“心”对应的5000维特征向量……,“好”对应的5000维特征向量。
通过各个汉字对应的5000维度特征向量,即可确定图3的(a)中各个汉字是5000个汉字中的那一个汉字,通过5000维特征向量表示图像中汉字是5000个汉字中各个汉字的概率,可以理解为“一件心事,想开了,固然很好”中的各个汉字与5000个汉字中各个汉字的相似度,以5000维特征向量的形式进行表达。
综上所述,通过归一化层对文字特征进行归一化处理,可以实现文字识别模型更加快速的收敛,从而提高文字识别模型的输出准确率,并且通过全连接层进行对多维特征向量进行处理,可以准确的确定待识别文字图像中各个文字对应的文字概率,从而提高后续输出层的输出准确度。
步骤S108,将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
具体的,在上述获得全连接层输出的多维特征向量的基础上,进一步的,此时说明已经确定待识别文字图像中文字与n个文字中各个文字的相似度,并以多维特征向量的形式进行表达,基于此,将多维特征向量输入至所述文字识别模型中的输出层进行向量转换,即可输出所述待识别文字图像中文字的识别结果。
实际应用中,所述输出层为文字识别模型中文字识别模块的输出层,该输出层是一个softmax层,实现可以将多维特征向量转换为概率形式,从而确定待识别文字图像中文字是n个文字中各个文字的概率,以实现根据概率选择出待识别文字图像中文字的识别结果。
进一步的,在通过输出层进行向量转换的过程中,可以由文字识别模型中的文字识别模块的输出层实现,从而可以更加准确的对待识别文字图像中的文字进行识别,本实施例中,具体实现方式如下所述:
将所述多维特征向量输入至所述文字识别模型中的文字识别模块,经过所述文字识别模块中的输出层对所述多维特征向量进行向量转换,获得所述待识别文字图像中文字的识别信息;
在所述识别信息中选择概率最高的编号确定为目标编号;
基于所述目标编号查询预设的文字字典,根据查询结果确定目标文字;
将所述目标文字确定为对所述待识别文字图像中文字的识别结果并输出。
具体的,所述识别信息具体是指对待识别文字图像中的文字进行识别后的文字与n个文字的相似度,编号具体是指n个文字中各个文字的编号,所述目标编号具体是指相似度最高的文字对应的编号;所述文字字典是指存储n个文字和编号对应关系的字典,参见图4所示,在文字字典中存储有n个文字,以及n个文字与各个编号的对应关系,需要说明的是,文字字典中的编号不存在重复,并且n的取值可以根据实际应用场景进行设定,此外,图4所示的内容是字典中部分,还包含更多的编号和文字的对应关系,本实施例在此不作过多限定。
基于此,在获得所述多维特征向量之后,将所述多维特征向量输入至所述文字识别模型中的文字识别模块,经过所述文字识别模块中的输出层对所述多维特征向量进行向量转换,获得所述待识别文字图像中文字的识别信息;再选择概率最高的编号作为所述目标编号,从而得出待识别文字图像中文字对应的编号,最后通过目标编号查询所述文字字典,即可确定待识别文字图像中文字对应的目标文字,将所述目标文字作为所述待识别文字图像中文字的识别结果并输出即可。
沿用上例,在获得各个汉字的5000维特征向量的基础上,将各个汉字的5000维特征向量输入至文字识别模型中的汉字识别模块,经过汉字识别模块的输出层对各个汉字的5000维特征向量进行转换,即可获得图像中各个汉字与5000个汉字的相似概率,即“一”与5000个汉字中各个汉字的概率是0.0001%,0.0007%,0.0001%......0.97%,“件”与5000个汉字中各个汉字的概率是0.0001%,0.0006%,0.0002%......0.96%……“好”与5000个汉字中各个汉字的概率是0.0001%,0.0006%,0.0002%......0.98%。
之后在相似概率中选择各个汉字对应的概率最高的编号作为目标编号,即“一”相似概率0.97%对应的目标编号是7,“件”相似概率0.96%对应的目标编号是702……“好”相似概率0.98%对应的目标编号是4750,最后通过各个汉字对应的目标编号查询如图4所示的文字字典,确定各个汉字对应的目标汉字是“一”、“件”、“心”、“事”、“想”、“开”、“了”、“固”、“然”、“很”和“好”,即可确定对手写档案整理后的汉字识别结果是“一件心事,想开了,固然很好”,此后将该段汉字发送给档案整理人员即可确定完成了对本次档案的识别。
综上所述,在进行文字识别的过程中,通过文字识别模型获得多维特征向量的基础上,为了提高文字识别效率,将由文字识别模型中的文字识别模块进行向量的转换,从而可以更加准确的识别待识别文字图像中的文字,提高识别效率的同时,保证识别准确率。
此外,在获得对待识别文字图像中的文字识别结果的基础上,为了方便用户查看,可以根据待识别文字图像进行图像风格迁移,即在识别结果中加入所述待识别文字图像的图像风格,从而方便用户观看。
沿用上例,当识别出“一件心事,想开了,固然很好”的情况下,为了方便档案整理人员查看,可以从图3中的(a)所示图像中抽取图像风格,并结合识别出的文字“一件心事,想开了,固然很好”生成图3中(b)所示的图像,从而实现更加方便档案整理人员查看。
本申请提供的识别方法,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现了可以准确的对图像中的文字进行识别,并且通过所述文字识别模型进行文字识别,可以避免形似的文字出现识别不准确的问题,进一步提高了文字识别准确率。
下述为本申请提供的识别方法在错字判别场景中的实施例:
图5是本申请一实施例提供的第二种识别方法的流程图,图6是本申请一实施例提供的第二种识别方法中图像的示意图;其中图5具体包括以下步骤:
步骤S502,获取待识别文字图像。
实际应用中,由于汉字的笔画复杂,形近字数量多,手写汉字的形式更加多样化,从而更加容易造成用户书写错误,如果用户手写错误汉字,将会造成他人无法正确了解用户所表达的意图,并且在错字判别场景中,比如在老师或家长为孩子听写汉字的时候,如果只是单独听写每个字,老师或家长检查不仔细,很容易造成检查不准确的情况发生,故对错字判别的准确度尤为重要。
本实施例提供的识别方法,为了能够准确的对错字进行判别,以及提高对错字判别的效率,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现可以准确的对图像中的文字进行错字识别,并且通过所述文字识别模型进行文字识别,可以得出图像中文字书写正确与错误的概率,可以将更加直观的识别结果反馈给用户,提高用户的体验效果。
本实施例将以文字为汉字为例,对本申请提供的识别方法进行描述,实际应用中,文字还可以蒙古字,韩国字等,具体实现方式均可参见汉字对应的实施例的描述内容,本申请在此不作过多赘述。
具体实施时,在汉字识别场景中,由于汉字数量较多,并且形近字的相似度较高,用户在书写汉字的过程中,很容易出现丢笔画的问题,比如将“燕”字写成草字头,或者将“直”字少写一横等,此时将会造成其他用户无法正确理解书写汉字的用户表达的含义,尤其是在汉字听写场景中,需要实现的就是老师或者家长阅读文字,让孩子进行默写,此时就需要准确的对孩子手写的汉字进行错别字判断,从而确定孩子的手写准确度,以对孩子进行错别字纠正。
实际应用中,若被听写的孩子较少,老师或者家长可以很快的对孩子手写的汉字进行检查,但是在孩子较多,或者听写汉字较多的情况下,将会消耗老师或者家长较多的时间,并且检查效率会随着时间的增长而下降,故可以通过本实施例提供的识别方法实现错字检查,提高检查效率的同时,还可以保证错字判别准确率。
具体的,所述待识别文字图像具体是指包含待识别文字的图像,可以是用户上传的图像,也可以是根据前端业务通过图像采集设备采集的图像,此时说明需要对待识别文字图像中的文字进行错字判别。
例如,在错字判别场景中,需要对孩子手写的汉字进行检查,此时用户可以通过终端设备对手写汉字进行拍摄,采集包含手写汉字的图像,并上传到服务端进行错字判别,实现快速且准确的检查手写汉字。
此外,本实施例提供的识别方法,还可以应用于看拼音写汉字的场景中,对孩子手写的汉字进行错别字判别,具体实现方式可参见本实施例提供的描述内容,本申请在此不作过多赘述。
步骤S504,将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征。
具体的,在上述获取所述待识别文字图像的基础上,进一步的,此时说明需要对所述待识别文字图像中的文字进行错字判别,则将所述待识别文字图像输入至所述文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征,以用于后续错字判别。
实际应用中,所述特征提取层属于所述文字识别模型中的特征提取模块,所述特征提取模块使用深度神经网络实现特征提取,从而可以实现后续对待识别文字图像中的文字进行正确的判别,具体实施时,所述文字识别模型还包含输入层,实现可以将输入的图像进行转换,满足特征提取模块的输入,实现更加准确的进行文字的判别。
沿用上例,老师上传的待识别汉字图像如图6中(a)所示,此时需要对图6中(a)所示的图像中汉字进行错字判别,则将待识别汉字图像输入到文字识别模型,经过文字识别模型中的输入层将图像转换为深度神经网络的输入,之后通过深度神经网络进行特征提取,获得待识别汉字图像中的文字特征,即提取图6中(a)所述的图像中“融、燕、鸳、鸯、惠、崇、芦、芽”各个汉字对应的文字特征,以用于后续进行错字判别。
步骤S506,根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量。
具体的,在上述提取所述待识别文字图像中的文字特征的基础上,进一步的,将继续对所述待识别文字图像中的文字进行处理,此时将根据所述文字特征生成中间特征向量,之后通过文字识别模型中的全连接层对所述中间特征向量进行全连接处理,实现获得所述待识别文字图像中文字对应的多维特征向量。
进一步的,根据所述文字特征生成所述中间特征向量的过程中,需要根据所述文字识别模型中的归一化层实现,具体实现方式与上述实施例提供的描述内容相似,本实施例在此不作过多赘述。
更进一步的,通过所述归一化层将所述文字特征进行归一化处理为中间特征向量后,此时进入错字判别阶段,故将所述中间特征向量输入至所述文字识别模型中的全连接层进行处理,获得所述多维特征向量,即将所述中间特征向量输入至所述文字识别模型中的错字判别模块,由所述错字判别模块中的全连接层对所述中间特征向量进行全连接处理,从而获得所述多维特征向量。
具体实施时,所述全连接层对所述中间特征向量进行处理,具体是指预测待识别文字图像中的文字是n个汉字中各个汉字的概率(n为正整数),即通过多维特征向量表示待识别文字图像中的文字是n个汉字中各个汉字的概率;从而方便后续输出层将多维特征向量转换为概率形式,获得待识别文字图像中文字的错字判别结果。
需要说明的是,全连接层输出多维特征向量时,即可确定待识别文字图像中文字对应的正确文字,以实现后续可以根据正确文字对图像中的文字进行错字判别。
沿用上例,在提取到图6中(a)所示的图像中“融、燕、鸳、鸯、惠、崇、芦、芽”对应的文字特征的基础上,将文字特征输入到文字识别模型中的归一化层进行归一化处理,获得各个文字特征对应的1024维特征向量,即“融”对应的1024维特征向量,“燕”对应的1024维特征向量……,“芽”对应的1024维特征向量,之后将各个文字特征对应的1024维特征向量输入到错字判别模块中的全连接层进行处理,获得各个文字的5000维特征向量,即“融”对应的5000维特征向量,“燕”对应的5000维特征向量,“芽”对应的5000维特征向量。
通过各个汉字对应的5000维度特征向量,即可确定图6的(a)中各个汉字是5000个汉字中的那一个汉字,通过5000维特征向量表示图像中汉字是5000个汉字中各个汉字的概率,可以理解为各个汉字与5000个汉字中各个汉字的相似度,以5000维特征向量的形式进行表达。
综上所述,通过归一化层对文字特征进行归一化处理,可以实现文字识别模型更加快速的收敛,从而提高文字识别模型的输出准确率,并且通过全连接层进行对多维特征向量进行处理,可以有效的提高文字识别模型的准确率。
步骤S508,将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量。
具体的,在上述获得全连接层输出的多维特征向量的基础上,进一步的,此时说明已经确定待识别文字图像中文字与n个文字中各个文字的相似度,并以多维特征向量的形式进行表达,基于此,将多维特征向量输入到文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量,其中,所述二维特征向量具体是指待识别文字图像中文字的正确概率和错误概率,即可以理解为多维特征向量表示文字对应的正确文字,之后通过正确文字和图像中文字进行比对,确定图像中文字的书写正确概率和错误概率,以向量的形式进行表达。
进一步的,在根据所述全连接层将所述多维特征向量处理为二维特征向量的过程中,为了能够提高错字判别的准确度,将通过独热编码层进行编码处理,实现确定待识别的文字,之后再通过全连接层进行处理,实现获得的二维特征向量的准确度更高,本实施例中,具体实现方式如下:
(1)将所述多维特征向量输入至所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量。
具体的,所述独热编码层可以实现单独的对待识别文字图像中文字进行编码处理,可以理解为每个特征如果它有m个可能值,经过独热编码层处理后,就变成了m个二元特征,并且这些特征互斥,每次只有一个可以被激活,从而保证数据稀疏,解决了分类器不好处理属性数据的问题,并在一定程度上起到了扩充特征的作用;例如,“融、燕、鸳、鸯、惠、崇、芦、芽”八个字,在进行独热编码(one-hot)时,每个字对应的编码特征向量为[1 0 0 00 0 0 0],[0 1 0 0 0 0 0 0]……[0 0 0 0 0 0 0 1],以进行后续的错字判别。
基于此,将多维特征向量输入到错字判别模型中的独热编码层进行编码处理,将输出与多维特征向量维度数目相同的编码特征向量,之后通过嵌入层实现对维度的降维处理,可以获得稠密特征向量,表示待识别文字图像中文字对应的正确文字的特征向量,以用于后续进行全连接处理,卷积出待识别文字图像中文字的书写错误的概率,本实施例中,具体实现方式如下所述:
将所述多维特征向量输入至所述独热编码层进行编码处理,获得编码特征向量;
通过所述错字判别模块中的嵌入层对所述编码特征向量进行降维处理,生成所述稠密特征向量。
实际应用中,通过独热编码层对所述多维特征向量进行编码处理,获得所述编码特征向量,即将多维特征向量中概率最大的为位置标记为1,其余位置均标记为0,1所对应的位置即为待识别文字图像中文字对应的正确文字的位置,从而实现通过编码特征向量来对待识别文字图像中文字对应的正确文字进行表达,之后通过错字判别模块中的嵌入层对所述编码特征向量进行降维处理,生成所述稠密特征向量,将维度从全连接层输出的维度降到归一化处理后的维度,以进行后续错字判别。
(2)根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量。
具体的,所述稠密特征向量具体表示待识别文字图像中文字对应的正确文字的表示的向量,所述中间特征向量具体表示所述待识别文字图像中文字的表示向量,此时将所述稠密特征向量和所述中间特征向量进行拼接,再对拼接特征向量进行全连接处理,即可分析出待识别图像中文字与正确文字存在的相似概率,并以二维特征向量的形式进行表达,以用于后续可以转换为概率形式表达。
进一步的,在进行二维特征向量生成的过程中,为了能够提高后续错字判别的准确率,将通过错字判别模块中的拼接层完成向量的拼接,并通过错字判别模块中的全连接层对所述拼接特征向量进行处理,获得所述二维特征向量,本实施例中,具体实现方式如下所述:
将所述稠密特征向量和所述中间特征向量输入至所述错字判别模块中的拼接层进行拼接处理,生成所述拼接特征向量;
通过所述错字判别模块中的全连接层对所述拼接特征向量进行处理,获得所述二维特征向量。
具体的,所述拼接层具体是指所述错字判别模块中进行向量拼接的层,所述拼接向量具体是指表示待识别文字图像中文字与正确文字进行对比的向量表达,所述二维特征向量具体是指对待识别文字图像中文字进行错字判别之后错误概率和正确概率的向量表达。
基于此,将所述稠密特征向量和所述中间特征向量输入至所述错字判别模块中的拼接层进行拼接处理,获得所述拼接特征向量,所述拼接特征向量对应的维度是稠密特征向量和中间特征向量所属维度的和,之后通过错字判别模块中的全连接层对所述拼接特征向量进行处理,即可获得所述二维特征向量,即确定所述待识别文字图像中文字的书写正确概率和错误概率,以用于后续转换为概率形式进行表达。
沿用上例,在获得图6中(a)所示的图像中各个汉字对应的5000维特征向量后,将各个汉字对应的5000维特征向量输入至文字识别模型中的错字判别模块,经过错字判别模块中的独热编码层对各个汉字对应的5000维特征向量进行编码处理,获得各个汉字对应的5000维编码特征向量,再通过错字判别模块中的嵌入层对各个汉字对应的5000维编码特征向量进行降维处理,获得各个汉字对应的1024维稠密特征向量,通过各个汉字对应的1024维稠密特征向量表示各个汉字对应的正确汉字表达。
之后将各个汉字对应的1024维稠密特征向量和各个汉字对应的1024维中间特征向量输入至错字判别模块中的拼接层,获得各个汉字对应的2048维拼接特征向量,然后通过全连接层对各个汉字对应的2048维拼接特征向量进行处理,即可获得各个汉字对应的二维特征向量,通过二维特征向量表达图像中各个汉字手写正确的概率和错误的概率,以用于后续进行向量转换。
综上所述,在进行错字判别处理的过程中,通过在错字判别模块中设置独热编码层、嵌入层、拼接层和全连接层,实现可以将错字和正确字进行直接的比对,并且输入文字较多的情况下,可以实现对模型快速的收敛,也不会相互影响输出结果,进一步提高错字判别的准确率,以及文字识别模型输出的准确度。
步骤S510,将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果。
具体的,在上述获得二维特征向量的基础上,进一步的,此时说明已经确定待识别文字图像中文字正确的概率和错误的概率,并以二维特征向量的形式进行表达,基于此,将所述二维特征向量输入至所述文字识别模型中的输出层进行向量转换,即可输出所述待识别文字图像中文字的错字判别结果。
实际应用中,所述输出层为文字识别模型中错字判别模块的的输出层,该输出层是一个softmax层,实现可以将二维特征向量转换为概率形式,从而确定待识别文字图像中文字手写正确的概率和错误的概率,即将所述二维特征向量输入至所述错字判别模块中的输出层进行向量转换,输出所述待识别文字图像中文字的正确概率和错误概率,作为所述识别结果。
沿用上例,在获得图6中(a)所示的图像中各个汉字对应的二维特征向量的基础上,将各个汉字对应的二维特征向量输入至错字判别模块的输出层进行向量转换,输出各个汉字的手写错误的概率,即“融”错误概率10%,“燕”错误概率85%......,“芽”错误概率12%,从而确定孩子手写的汉字中“燕”字为错别字。
进一步的,在确定待识别文字图像中文字的错字识别结果的基础上,为了方便用户观察错字的错误位置,可以将错字和正确字进行比对,从而实现用户更加方便进行修改,本实施例中,具体实现方式如下所述:
获取上传所述待识别文字图像的用户提交的选择指令;
在所述选择指令为错字识别指令的情况下,提取所述待识别文字图像的图像风格数据;
根据所述识别结果确定所述文字对应的正确文字,并基于所述图像风格数据和所述正确文字生成正确文字图像;
对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户。
具体的,在确定用户上传的指令为错字识别指令的情况下,此时提取所述待识别文字图像的图像风格数据,所述图像风格数据具体是指待识别文字图像的背景数据、颜色数据和/或灰度数据等,之后根据错字识别结果确定所述待识别文字图像中错字对应的正确文字,基于所述图像风格数据和所述正确文字生成正确文字图像,最后对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户,从而实现方便用户对错字进行修改。
更进一步的,在将所述正确文字图像和所述待识别文字图像进行比对的过程中,为了方便用户进行观看,可以将错误的位置进行高亮标注,之后将标注后的结果发送给所述用户,本实施例中,具体实现方式如下所述:
将所述正确文字图像和所述待识别文字图像进行比对,根据比对结果确定区别位置;
对所述区别位置进行高亮标注,将标注结果作为所述比对结果发送至所述用户。
实际应用中,所述高亮标注可以是将正确文字图像中与所述待识别文字图像中存在区别的地方进行颜色标注,或者圈选标注等,本实施例在此不作过多限定,所述区别位置即为待识别文字图像中文字书写错误的文字,从而实现更加方便用户修正。
沿用上例,在获得图6中(a)所示的图像中各个汉字对应错字概率的基础上,将提取图像的背景数据、颜色数据和书写格式数据,之后根据各个汉字对应的正确汉字生成如图6中(b)所示的正确汉字图像,并将图6中(a)和(b)进行合并,此外将“燕”字手写错误的地方进行圈选,从而更加方便用户对孩子写错的汉字进行纠正。
综上,在识别出待识别文字图像中文字的错字识别结果后,通过提取图像风格数据结合正确文字生成正确文字图像,实现更加方便用户进行观看,并且通过标注的方式,方便用户对错误的位置进行修改或纠正,进一步的提高了用户的体验效果。
本实施例提供的识别方法,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现可以准确的对图像中的文字进行错字识别,并且通过所述文字识别模型进行文字识别,可以得出图像中文字书写正确与错误的概率,可以将更加直观的识别结果反馈给用户,提高用户的体验效果。
实际应用中,所述文字识别模型中还可以同时包含文字识别模块和错字判别模块,即文字识别模型可以实现文字识别以及错字判别,从而实现文字识别模型应用于更广泛的场景,比如汉字听写场景,不仅需要确定手写汉字的是否为错别字,还需要告知用户错别字对应的正确汉字,故在此场景中就需要同时输出错字识别结果和文字识别结果,以满足场景需求。
下述为本申请的识别方法在文字识别场景和错字判别场景中的实施例:
图7是本申请一实施例提供的第三种识别方法的流程图,图8是本申请一实施例提供的第三种识别方法的示意图;其中图7具体包括以下步骤:
步骤S702,获取文字图像。
实际应用中,由于汉字的笔画复杂,形近字数量多,手写汉字的形式更加多样化,使用深度神经网络技术做汉字识别的方法虽然比较多,但都存在着没法解决识别错别字问题,并且在汉字识别场景中,虽然可以通过卷积神经网络加中心损失的方法对相似手写汉字进行识别,通过引入度量学习中心损失函数到卷积神经网络,再使用交叉熵以及中心损失作为卷积神经网络的联合损失,使得模型学习到更加具备鉴别能力的特征,减少同类样本之间的距离,增加不同样本之间的距离,但是,该方法不是一个端到端的方法,形近字识别方法只能在挑选的150个汉字上实现,因此解决汉字识别和错别字识别是重中之重的一个问题。
本申请提供的识别方法,为了能够提高文字识别的准确率,以及可以满足汉字识别和错字判别,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现了可以准确的对图像中的文字进行识别,并且通过所述文字识别模型进行文字识别,可以避免形似的文字出现识别不准确的问题,进一步提高了文字识别准确率;同时可以通过文字识别模型实现错字判别,从而达到应用到更广泛的应用场景,实现满足更多用户的需求。
本实施例将以文字为汉字为例,对本申请提供的识别方法进行描述,实际应用中,文字还可以蒙古字,韩国字等,具体实现方式均可参见汉字对应的实施例的描述内容,本申请在此不作过多赘述。
具体实施时,在汉字听写场景中,不仅需要对汉字进行错别字识别,同时还需要获得汉字对应的正确字,从而可以使得用户进行对比,确定书写错误的汉字错误位置,并及时进行修改。
步骤S704,将文字图像输入至文字识别模型,经过文字识别模型中的特征提取模块提取文字图像的文字特征。
步骤S706,将文字特征输入至特征提取模块中的归一化层进行归一化处理,获得中间特征向量。
步骤S708,通过文字识别模型中的全连接层对中间特征向量进行处理,获得多维特征向量。
具体的,在获得文字图像中的文字特征之后,将文字特征输入至特征提取模块中的归一化层进行归一化处理,获得1024维中间特征向量,之后再由文字识别模型中的全连接层对1024维中间特征向量进行处理,获得5000维特征向量,用于表达文字图像中的汉字与5000个汉字中各个汉字的相似概率。
步骤S710,将多维特征向量输入至文字识别模型中的汉字识别模块,经过汉字识别模块中的输出层对多维特征向量进行向量转换,获得文字图像中文字的识别信息。
步骤S712,在识别信息中选择概率最高的编号作为目标编号。
步骤S714,基于目标编号查询预设的文字字典,根据查询结果确定目标汉字。
步骤S716,将目标汉字确定为文字图像中文字的识别结果并输出。
具体的,在获得文字图像中文字对应的5000维特征向量后,将5000维特征向量输入至文字识别模型中的汉字识别模块,经过汉字识别模块中的输出层对5000维特征向量进行向量转换,即可获得文字图像中汉字与5000个汉字的相似概率,此时选择概率最高的编号作为目标编号,确定文字图像中的汉字与编号469的相似概率最高,则在文字字典中查询编号469对应的汉字作为目标汉字,以确定为对文字图像中文字的识别结果进行输出。
步骤S718,将多维特征向量输入至文字识别模型中,经过错字判别模块中的独热编码层对多维特征向量进行编码处理,获得编码特征向量。
步骤S720,通过错字判别模块中的嵌入层对编码特征向量进行降维处理,生成稠密特征向量。
步骤S722,将稠密特征向量和中间特征向量输入至拼接层进行拼接处理,获得拼接特征向量。
步骤S724,通过错字判别模块中的全连接层对拼接特征向量进行处理,获得二维特征向量。
步骤S726,将二维特征向量输入至错字判别模块中的输出层进行向量转换,输出文字图像中文字的错字识别结果。
具体的,在获得文字图像中文字对应的5000维特征向量后,将5000维特征向量输入至文字识别模型中的错字判别模块,经过错字判别模块中独热编码层进行编码处理,获得5000维编码特征向量,之后通过错字判别模块中的嵌入层对5000维编码特征向量进行降维处理,生成1024维稠密特征向量,将1024维稠密特征向量和1024维中间特征向量输入到错字判别模块中的拼接层进行拼接处理,获得2048维拼接特征向量,最后通过错字判别模块中的全连接层对2048维拼接特征向量进行处理,即可获得二维特征向量,再由错字判别模块中的输出层进行向量转换,即可输出对文字图像中文字的错字识别结果,即确定文字图像中文字的错字概率和正确字概率。
需要说明的是,步骤S710至步骤S716,以及步骤S718至步骤S726可以并行执行,也可以优先执行步骤S710至步骤S716,再执行步骤S718至步骤S726,或者先执行步骤S718至步骤S726,再执行步骤S710至步骤S716,具体执行顺序本实施例在此不作过多限定。具体实施时,本实施例相应的描述内容均可参见上述实施例的描述内容,本实施例在此不作过多赘述。
参见图8所示,将文字图像输入到文字识别模型的输入层之后,将通过特征提取模块(深度神经网络)进行特征提取,并通归一化层获得1024维中间特征向量,此时再将1024维中间特征向量输入至汉字识别模块的全连接层获得5000维特征向量,之后由汉字识别模块中的输出层即可获得汉字识别结果,并通过查询预设的字典,即可确定文字图像中文字对应的正确汉字,作为识别结果;同时将全连接层输出的5000维特征向量输入至错字识别模块中的独热编码层进行编码处理获得5000维编码特征向量,之后由嵌入层进行降维获得1024维稠密特征向量,通过拼接层将1024维中间特征向量和1024维稠密特征向量拼接为2048维拼接特征向量,再由全连接层对2048维拼接特征向量进行转换,即可获得二维特征向量,最后由错字判别模块中的输出层输出对文字图像中文字的错字识别结果,即可确定文字图像中汉字书写正确的概率和错误的概率,分析出汉字的是否为错别字。
步骤S728,提取文字图像的图像风格数据,以及确定文字图像中文字对应的正确汉字。
步骤S730,基于图像风格数据和正确汉字生成正确汉字图像。
步骤S732,将正确汉字图像和文字图像进行比对,根据比对结果对区别位置进行高亮标注,并返回给提交文字图像的用户。
具体的,在确定文字图像中文字对应的正确汉字和文字错误概率较高的情况下,将提取文字图像的图像风格数据,并结合正确汉字生成正确汉字图像,通过将正确汉字图像和文字图像进行比对,将存在区别的位置进行标注,最后将标注后的结果返回给用户,实现更加方便用户进行错误的纠正,进一步提高了用户的体验效果。
通过上述方式即可实现同时进行文字识别和错别字判断,即输入的待识别文字图像中包含待识别文字,经过文字识别模型的处理,输出的识别结果为待识别文字对应的正确文字,以及待识别文字是正确字的概率和错别字的概率,例如在汉字听写场景中,老师或者家长为了确定孩子书写的汉字是否正确,可以将汉字书写的文字进行拍照并上传,在获取到上传的待识别汉字图像之后,将通过文字识别模型进行汉字识别和错别字判断,从而可以得出孩子书写的汉字是哪个汉字,以及判断出孩子书写的汉字是否正确,从而方便家长或者老师快速的对孩子书写的汉字进行检查。
而在此过程中,由于文字识别模型可以同时实现文字识别和错别字判断,故在对所述文识别模型进行训练的过程中,就需要同时对模型进行文字识别训练和错别字判别训练,以实现同时实现文字识别和错别字判断,具体训练方式如图9所示,图9包含如下步骤:
步骤S902,获取训练图像。
步骤S904,对所述训练图像进行标注,获得第一维特征和第二维特征。
具体的,获取到训练图像之后,将对训练图像进行标注,获得第一维特征和第二维特征,其中标注方式可以采用在汉字维度进行标注和错字维度进行标注,即获得的第一维特征为汉字特征,第二维特征为错字特征;例如训练图像中包含的汉字是“我”,若“我”字书写正确,则第一维特征为“我”,第二维特征为1,若“我”字书写错误,则第一维特征为“我”少一撇,第二维特征为0,以用于后续训练文字识别模型。
步骤S906,根据所述第一维特征和所述训练图像组成第一训练样本,以及根据所述第二维特征和所述训练图像组成第二训练样本。
步骤S908,基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,以及基于所述第二训练样本对所述待训练文字识别模型中的错字判别模块进行训练。
具体的,在基于所述第一维特征和所述训练图像组成第一训练样本,以及根据所述第二维特征和所述训练图像组成第二训练样本的基础上,将根据所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,以及基于所述第二训练样本对所述待训练文字识别模型中的错字判别模块进行训练,从而实现文字识别模块可以实现文字识别,错字判别模块可以实现错别字判别。
进一步的,在对所述特征提取模块和文字识别模块进行训练的过程中,实则是对嵌入层的权重矩阵进行初始化,本实施例中,具体实现方式如下所述:
对所述第一训练样本中的所述训练图像进行归一化处理,获得样本特征向量;
计算所述样本特征向量的中心特征向量,并根据所述中心特征向量分别初始化所述特征提取模块和所述文字识别模块的嵌入层的权重矩阵。
具体的,提取训练图像的特征,之后通过待训练文字识别模型中的归一化层对训练图像的特征进行归一化处理,获得样本特征向量,并保存,之后计算训练图像中汉字的类中心,即计算中心特征向量以用于初始化嵌入层的权重矩阵。
例如,“直”字的训练图像有3000张,那么通过对“直”字进行归一化处理将获得3000个1024维的特征向量,之后求3000个特征向量的平均值,得到“直”字的中心特征向量(1024维),之后使用中心特征向量初始化待训练文字识别模型中特征提取模块和文字识别模块的嵌入层的权重矩阵,即“直”字对应嵌入层中5000个字的第七个汉字,则对嵌入层中权重矩阵的第七行进行赋值,即可实现对特征提取模块和文字识别模块的训练。
此外,在训练文字识别模块和特征提取模块的过程中,为了能够提高文字识别模块和特征提取模块的输出准确度,可以通过第一损失值和第二损失值对文字识别模块和特征提取模块进行迭代训练,直至满足停止训练条件,停止训练即可,具体实现方式如下所述:
在基于所述第一训练样本对所述特征提取模块和所述文字识别模块进行训练的过程中,通过第一损失函数计算所述特征提取模块第一损失值,以及计算所述文字识别模块的第二损失值;
基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,直至满足训练停止条件。
具体的,在基于所述第一训练样本对所述特征提取模块和所述文字识别模块进行训练的过程中,通过第一损失函数计算所述特征提取模块第一损失值,以及计算所述文字识别模块的第二损失值;之后基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,直至满足训练停止条件。
实际应用中,基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,具体是指计算第一损失值和所述第二损失值的总和,在总损失值达到最小值的情况下即为满足训练停止条件,即可获得输出效果较好的特征提取模块和文字识别模块,则此时可以将特征提取模块和文字识别模块进行固定,使用第二维特征训练错字判别模块,从而实现训练出满足场景需求的文字识别模型。
步骤S910,根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型。
具体的,所述特征提取模块包含所述特征提取层;基于此,在上述对所述特征提取模块、所述文字识别模块和所述错字判别模块进行训练后,将根据训练结果获得所述文字识别模型,以用于文字识别和错字判别场景。
进一步的,在训练出所述文字识别模型之前,为了提高所述文字识别模型的识别准确度,还可以在单独训练各个模块之后,结合第一训练样本和第二训练样本对所述待训练文字识别模型进行深度训练,本实施例中,具体实现方式如下所述:
在所述特征提取模块、所述文字识别模块和所述错字判别模块训练完成之后,根据所述第一训练样本和所述第二训练样本对所述待训练文字识别模型进行深度训练;
相应的,执行所述步骤S910根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,所述步骤S910具体是指:根据深度训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型。
实际应用中,如果单独训练完成待训练文字识别模型中的各个模块之后,各个模块之间还存在着联合不完整的状态,即可能导致模型的输出结果不准确,此时为了能够提高模型的输出准确度,以及提高各个模块之间的联合状态,可以基于训练样本对所述由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型继续进行训练,从而实现提高文字识别模型的输出准确度的同时,提高模型中各个模块的配合度。
此外,在进行文字识别模型训练的过程中,还可以使用迁移学习的方法获得最终的文字识别模型,该过程主要分为在造数据的预训练和迁移到真实数据上微调,本实施例中,具体实现方式如下所述:
获取训练数据,以及所述训练数据对应的目标数据;
根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,根据训练结果提取所述待训练文字识别模型的模型参数并保存;
获取真实训练数据以及所述真实训练数据对应的真实目标数据;
根据所述真实训练数据和所述真实目标数据对所述待训练文字识别模型进行二次训练,获得中间文字识别模型;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
基于所模型参数对所述中间文字识别模型进行调整,根据调整结果获得所述文字识别模型。
具体的,所述训练数据具体是指汉字数据,所述目标数据具体是指错字数据,即通过专用字符编辑程序生成的错字对应的数据,参见图10所示,生成的目标数据为缺少笔画或者书写错误的汉字,需要说明的是,图10中所示的错别字为目标数据中的部分数据,此外还包含其他错别字;所述模型参数是指模型在训练过程中发生变化的参数,例如卷积层的卷积核的值、嵌入层的权重矩阵、全连接层的反卷积核等参数;所述真实数据具体是指实际应用场景中采集到的真实数据,所述真实目标数据具体是指对真实数据进行识别后的结果对应的数据。
基于此,将目标数据和训练数据作为训练样本对所述待训练文字识别模型进行一次训练(在造数据的预训练),此时可以根据训练结果提取所述待训练文字识别模型的模型参数并保存,以用于后续迁移到真实数据的训练,之后获取真实训练数据以及所述真实训练数据对应的真实目标数据,再次对待训练文字识别模型进行二次训练,获得中间文字识别模型;最后基于所模型参数对所述中间文字识别模型进行调整,根据调整结果即可获得所述文字识别模型。
其中,在对待训练文字识别模型进行一次训练的过程中,为了能够满足后续文字识别模型可以输出效果更好的结果,还可以进行图像风格的迁移,本实施例中,具体实现方式如下所述:
解析所述训练数据,获得所述训练数据的训练风格数据;
基于所述训练风格数据对所述目标数据进行调整,并根据调整结果和所述训练数据对所述待训练文字识别模型进行一次训练。
实际应用中,通过解析所述训练数据,获得所述训练数据的训练风格数据,所述训练风格数据具体是指训练数据的颜色数据、灰度数据或文字大小数据,之后通过图像风格迁移网络(Cycle GAN)将训练数据中的训练风格数据迁移到目标数据,完成对目标数据的调整,最后根据调整结果和所述训练数据对所述待训练文字识别模型进行一次训练,实现可以将训练图像中的风格迁移到目标数据,满足在实际应用过程中,通过文字识别模型可以将输入图像的风格迁移到输出的图像中,更加方便用户观看。
参见图11所示,输入的图像风格是(a),而识别出的文字图像风格是(b),此时为了方便用户观看,可以将图像分风格(a)迁移到识别后的图像中,生成如图像风格(c)的图像,方便用户观看。
综上所述,在进行模型训练的过程中,将通过联合学习的方式实现模型中各个模块之间相互影响,从而提高各个模块之间的配合度,并且通过该方式训练完成的模型可以应用于更多的场景,进一步提高了模型的应用场景覆盖率,此外分部分和分步骤的训练方式,不仅提高模型收敛的速度,还有效的提高了模型识别的准确度,并且解决的文字识别和错字判别共同训练的问题。
与上述方法实施例相对应,本申请还提供了识别装置实施例,图12示出了本申请一实施例提供的一种识别装置的结构示意图。如图12所示,该装置包括:
获取单元1202,被配置为获取待识别文字图像;
提取单元1204,被配置为将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
处理单元1206,被配置为根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;
输出单元1208,被配置为将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
一个可选的实施例中,所述处理单元1206进一步被配置为:
将所述文字特征输入至所述文字识别模型中的归一化层进行归一化处理,获得所述中间特征向量。
一个可选的实施例中,所述输出单元1208,包括:
向量转换子单元,被配置为将所述多维特征向量输入至所述文字识别模型中的文字识别模块,经过所述文字识别模块中的输出层对所述多维特征向量进行向量转换,获得所述待识别文字图像中文字的识别信息;
选择目标编号子单元,被配置为在所述识别信息中选择概率最高的编号确定为目标编号;
查询字典子单元,被配置为基于所述目标编号查询预设的文字字典,根据查询结果确定目标文字;
确定识别结果子单元,被配置为将所述目标文字确定为对所述待识别文字图像中文字的识别结果并输出。
一个可选的实施例中,所述识别装置,还包括:
文字判别处理单元,被配置为将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量;
相应的,所述输出单元1208进一步被配置为:
将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果。
一个可选的实施例中,所述文字判别处理单元,包括:
编码处理子单元,被配置为将所述多维特征向量输入至所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量;
全连接处理子单元,被配置为根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量。
一个可选的实施例中,所述编码处理子单元进一步被配置为:
将所述多维特征向量输入至所述独热编码层进行编码处理,获得编码特征向量;通过所述错字判别模块中的嵌入层对所述编码特征向量进行降维处理,生成所述稠密特征向量。
一个可选的实施例中,所述全连接处理子单元进一步被配置为:
将所述稠密特征向量和所述中间特征向量输入至所述错字判别模块中的拼接层进行拼接处理,生成所述拼接特征向量;通过所述错字判别模块中的全连接层对所述拼接特征向量进行处理,获得所述二维特征向量。
一个可选的实施例中,所述输出单元1208进一步被配置为:
将所述二维特征向量输入至所述错字判别模块中的输出层进行向量转换,输出所述待识别文字图像中文字的正确概率和错误概率,作为所述识别结果。
一个可选的实施例中,所述识别装置,还包括:
获取选择指令单元,被配置为获取上传所述待识别文字图像的用户提交的选择指令;
提取图像风格数据单元,被配置为在所述选择指令为错字识别指令的情况下,提取所述待识别文字图像的图像风格数据;
生成文字图像单元,被配置为根据所述识别结果确定所述文字对应的正确文字,并基于所述图像风格数据和所述正确文字生成正确文字图像;
对比单元,被配置为对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户。
一个可选的实施例中,所述对比单元,包括:
比对子模块,被配置为将所述正确文字图像和所述待识别文字图像进行比对,根据比对结果确定区别位置;
标注子模块,被配置为对所述区别位置进行高亮标注,将标注结果作为所述比对结果发送至所述用户。
一个可选的实施例中,所述文字识别模型,采用如下方式训练:
获取训练图像;
对所述训练图像进行标注,获得第一维特征和第二维特征;
根据所述第一维特征和所述训练图像组成第一训练样本,以及根据所述第二维特征和所述训练图像组成第二训练样本;
基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,以及基于所述第二训练样本对所述待训练文字识别模型中的错字判别模块进行训练;
根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型;所述特征提取模块包含所述特征提取层。
一个可选的实施例中,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
在基于所述第一训练样本对所述特征提取模块和所述文字识别模块进行训练的过程中,通过第一损失函数计算所述特征提取模块第一损失值,以及计算所述文字识别模块的第二损失值;
基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,直至满足训练停止条件。
一个可选的实施例中,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
对所述第一训练样本中的所述训练图像进行归一化处理,获得样本特征向量;
计算所述样本特征向量的中心特征向量,并根据所述中心特征向量分别初始化所述特征提取模块和所述文字识别模块的嵌入层的权重矩阵。
一个可选的实施例中,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
在所述特征提取模块、所述文字识别模块和所述错字判别模块训练完成之后,根据所述第一训练样本和所述第二训练样本对所述待训练文字识别模型进行深度训练;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
根据深度训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型。
一个可选的实施例中,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
获取训练数据,以及所述训练数据对应的目标数据;
根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,根据训练结果提取所述待训练文字识别模型的模型参数并保存;
获取真实训练数据以及所述真实训练数据对应的真实目标数据;
根据所述真实训练数据和所述真实目标数据对所述待训练文字识别模型进行二次训练,获得中间文字识别模型;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
基于所模型参数对所述中间文字识别模型进行调整,根据调整结果获得所述文字识别模型。
一个可选的实施例中,所述训练数据包括下述至少一项:汉字数据;
相应的,所述目标数据包括下述至少一项:错字数据;所述错字数据由字符编辑程序生成。
一个可选的实施例中,所述根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,包括:
解析所述训练数据,获得所述训练数据的训练风格数据;
基于所述训练风格数据对所述目标数据进行调整,并根据调整结果和所述训练数据对所述待训练文字识别模型进行一次训练。
本申请提供的识别装置,在获取到待识别文字图像之后,通过文字识别模型中的特征提取层提取待识别文字图像的文字特征,之后根据文字特征生成中间特征向量,并通过全连接层对中间特征向量进行处理,从而可以获得待识别文字图像中的文字是各个预设文字的概率,并以多维特特征向量的形式进行表达,最后将多维特征向量输入到文字识别模型中的输出层进行转换,从而可以输出对待识别文字图像中的文字进行识别的结果,实现了可以准确的对图像中的文字进行识别,并且通过所述文字识别模型进行文字识别,可以避免形似的文字出现识别不准确的问题,进一步提高了文字识别准确率;同时可以通过文字识别模型实现错字判别,从而达到应用到更广泛的应用场景,实现满足更多用户的需求。
上述为本实施例的一种识别装置的示意性方案。需要说明的是,该识别装置的技术方案与上述的识别方法的技术方案属于同一构思,识别装置的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
图13示出了根据本申请一实施例提供的一种计算设备1300的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接,数据库1350用于保存数据。
计算设备1300还包括接入设备1340,接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE902.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图13所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1300可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。
其中,处理器1320用于执行如下计算机可执行指令:
获取待识别文字图像;
将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;
将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待识别文字图像;
将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量;
将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述识别方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (19)

1.一种识别方法,其特征在于,包括:
获取待识别文字图像;
将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量,其中,所述多维特征向量用于表达所述待识别文字图像中文字与n个文字中各个文字的相似度;
将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果;
其中,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果步骤执行之前,还包括:将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量;
相应的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果,包括:将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果。
2.根据权利要求1所述的识别方法,其特征在于,所述根据所述文字特征生成中间特征向量,包括:
将所述文字特征输入至所述文字识别模型中的归一化层进行归一化处理,获得所述中间特征向量。
3.根据权利要求1所述的识别方法,其特征在于,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果,包括:
将所述多维特征向量输入至所述文字识别模型中的文字识别模块,经过所述文字识别模块中的输出层对所述多维特征向量进行向量转换,获得所述待识别文字图像中文字的识别信息;
在所述识别信息中选择概率最高的编号确定为目标编号;
基于所述目标编号查询预设的文字字典,根据查询结果确定目标文字;
将所述目标文字确定为对所述待识别文字图像中文字的识别结果并输出。
4.根据权利要求1所述的识别方法,其特征在于,所述将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量,包括:
将所述多维特征向量输入至所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量;
根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量。
5.根据权利要求4所述的识别方法,其特征在于,所述将所述多维特征向量输入到所述错字判别模块中的独热编码层进行编码处理,并将编码处理后的多维特征向量降维为稠密特征向量,包括:
将所述多维特征向量输入至所述独热编码层进行编码处理,获得编码特征向量;
通过所述错字判别模块中的嵌入层对所述编码特征向量进行降维处理,生成所述稠密特征向量。
6.根据权利要求4所述的识别方法,其特征在于,所述根据所述稠密特征向量和所述中间特征向量生成拼接特征向量,并对所述拼接特征向量进行全连接处理,获得所述二维特征向量,包括:
将所述稠密特征向量和所述中间特征向量输入至所述错字判别模块中的拼接层进行拼接处理,生成所述拼接特征向量;
通过所述错字判别模块中的全连接层对所述拼接特征向量进行处理,获得所述二维特征向量。
7.根据权利要求1所述的识别方法,其特征在于,所述将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果,包括:
将所述二维特征向量输入至所述错字判别模块中的输出层进行向量转换,输出所述待识别文字图像中文字的正确概率和错误概率,作为所述识别结果。
8.根据权利要求1所述的识别方法,其特征在于,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果步骤执行之后,还包括:
获取上传所述待识别文字图像的用户提交的选择指令;
在所述选择指令为错字识别指令的情况下,提取所述待识别文字图像的图像风格数据;
根据所述识别结果确定所述文字对应的正确文字,并基于所述图像风格数据和所述正确文字生成正确文字图像;
对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户。
9.根据权利要求8所述的识别方法,其特征在于,所述对所述正确文字图像和所述待识别文字图像进行比对,并将比对结果发送至所述用户,包括:
将所述正确文字图像和所述待识别文字图像进行比对,根据比对结果确定区别位置;
对所述区别位置进行高亮标注,将标注结果作为所述比对结果发送至所述用户。
10.根据权利要求1所述的识别方法,其特征在于,所述文字识别模型,采用如下方式训练:
获取训练图像;
对所述训练图像进行标注,获得第一维特征和第二维特征;
根据所述第一维特征和所述训练图像组成第一训练样本,以及根据所述第二维特征和所述训练图像组成第二训练样本;
基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,以及基于所述第二训练样本对所述待训练文字识别模型中的错字判别模块进行训练;
根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型;所述特征提取模块包含所述特征提取层。
11.根据权利要求10所述的识别方法,其特征在于,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
在基于所述第一训练样本对所述特征提取模块和所述文字识别模块进行训练的过程中,通过第一损失函数计算所述特征提取模块第一损失值,以及计算所述文字识别模块的第二损失值;
基于所述第一损失值和所述第二损失值对所述特征提取模块和所述文字识别模块进行迭代训练,直至满足训练停止条件。
12.根据权利要求10所述的识别方法,其特征在于,所述基于所述第一训练样本对待训练文字识别模型中的特征提取模块和文字识别模块进行训练,包括:
对所述第一训练样本中的所述训练图像进行归一化处理,获得样本特征向量;
计算所述样本特征向量的中心特征向量,并根据所述中心特征向量分别初始化所述特征提取模块和所述文字识别模块的嵌入层的权重矩阵。
13.根据权利要求10所述的识别方法,其特征在于,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
在所述特征提取模块、所述文字识别模块和所述错字判别模块训练完成之后,根据所述第一训练样本和所述第二训练样本对所述待训练文字识别模型进行深度训练;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
根据深度训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型。
14.根据权利要求10所述识别方法,其特征在于,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型步骤执行之前,还包括:
获取训练数据,以及所述训练数据对应的目标数据;
根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,根据训练结果提取所述待训练文字识别模型的模型参数并保存;
获取真实训练数据以及所述真实训练数据对应的真实目标数据;
根据所述真实训练数据和所述真实目标数据对所述待训练文字识别模型进行二次训练,获得中间文字识别模型;
相应的,所述根据训练结果获得由所述特征提取模块、所述文字识别模块和所述错字判别模块组成的所述文字识别模型,包括:
基于所模型参数对所述中间文字识别模型进行调整,根据调整结果获得所述文字识别模型。
15.根据权利要求14所述识别方法,其特征在于,所述训练数据包括下述至少一项:汉字数据;
相应的,所述目标数据包括下述至少一项:错字数据;所述错字数据由字符编辑程序生成。
16.根据权利要求15所述识别方法,其特征在于,所述根据所述训练数据和所述目标数据对所述待训练文字识别模型进行一次训练,包括:
解析所述训练数据,获得所述训练数据的训练风格数据;
基于所述训练风格数据对所述目标数据进行调整,并根据调整结果和所述训练数据对所述待训练文字识别模型进行一次训练。
17.一种识别装置,其特征在于,包括:
获取单元,被配置为获取待识别文字图像;
提取单元,被配置为将所述待识别文字图像输入至文字识别模型,经过所述文字识别模型中的特征提取层提取所述待识别文字图像的文字特征;
处理单元,被配置为根据所述文字特征生成中间特征向量,并通过所述文字识别模型中的全连接层对所述中间特征向量进行处理,获得多维特征向量,其中,所述多维特征向量用于表达所述待识别文字图像中文字与n个文字中各个文字的相似度;
输出单元,被配置为将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果;
其中,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果步骤执行之前,还包括:将所述多维特征向量输入至所述文字识别模型中的错字判别模块进行文字判别处理,获得二维特征向量;
相应的,所述将所述多维特征向量输入至所述文字识别模型中的输出层进行向量转换,输出对所述待识别文字图像中文字的识别结果,包括:将所述二维特征向量输入至所述输出层进行向量转换,输出对所述待识别文字图像中文字的错字识别结果,作为所述识别结果。
18.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至16任意一项所述识别方法的步骤。
19.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至16任意一项所述识别方法的步骤。
CN202010640068.1A 2020-07-06 2020-07-06 识别方法及装置 Active CN111753802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010640068.1A CN111753802B (zh) 2020-07-06 2020-07-06 识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010640068.1A CN111753802B (zh) 2020-07-06 2020-07-06 识别方法及装置

Publications (2)

Publication Number Publication Date
CN111753802A CN111753802A (zh) 2020-10-09
CN111753802B true CN111753802B (zh) 2024-06-21

Family

ID=72679456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010640068.1A Active CN111753802B (zh) 2020-07-06 2020-07-06 识别方法及装置

Country Status (1)

Country Link
CN (1) CN111753802B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380850A (zh) * 2020-11-30 2021-02-19 沈阳东软智能医疗科技研究院有限公司 错别字识别方法、装置、介质及电子设备
CN112766052A (zh) * 2020-12-29 2021-05-07 有米科技股份有限公司 基于ctc的图像文字识别方法及装置
CN112766051A (zh) * 2020-12-29 2021-05-07 有米科技股份有限公司 基于Attention的图像文字识别方法及装置
CN113191251B (zh) * 2021-04-28 2023-04-07 北京有竹居网络技术有限公司 一种笔顺检测方法、装置、电子设备和存储介质
CN113313022B (zh) * 2021-05-27 2023-11-10 北京百度网讯科技有限公司 文字识别模型的训练方法和识别图像中文字的方法
CN113469378B (zh) * 2021-05-31 2023-11-24 烟台杰瑞石油服务集团股份有限公司 检修方法及检修设备
CN114998896B (zh) * 2022-06-13 2024-06-28 深圳市星桐科技有限公司 文本识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299251A (zh) * 2018-08-13 2019-02-01 同济大学 一种基于深度学习算法的异常垃圾短信识别方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086653B (zh) * 2018-06-04 2023-04-18 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN108985442B (zh) * 2018-06-04 2023-04-18 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN110175603B (zh) * 2019-04-01 2021-08-10 佛山缔乐视觉科技有限公司 一种雕刻文字识别方法、***及存储介质
CN110347823A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 基于语音的用户分类方法、装置、计算机设备及存储介质
CN110377686B (zh) * 2019-07-04 2021-09-17 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299251A (zh) * 2018-08-13 2019-02-01 同济大学 一种基于深度学习算法的异常垃圾短信识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于稀疏编码直方图的TSM识别场景文本算法;肖诚求;吉立新;朱俊光;张建朋;王亚文;;计算机工程与设计(04);全文 *

Also Published As

Publication number Publication date
CN111753802A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN111753802B (zh) 识别方法及装置
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
CN111758116B (zh) 脸部图像识别***、识别器生成装置、识别装置与***
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其***
CN106126581A (zh) 基于深度学习的手绘草图图像检索方法
CN111950528B (zh) 图表识别模型训练方法以及装置
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN112686219B (zh) 手写文本识别方法及计算机存储介质
US11568140B2 (en) Optical character recognition using a combination of neural network models
KR20170083805A (ko) 초서체 또는 흘림체로 작성된 문자의 판별 방법 및 시스템
Sampath et al. Decision tree and deep learning based probabilistic model for character recognition
CN111460782A (zh) 一种信息处理方法、装置及设备
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及***
CN113095314A (zh) 一种公式识别方法、装置、存储介质及设备
CN112613416A (zh) 一种人脸表情识别方法和相关装置
Ao et al. Cross-modal prototype learning for zero-shot handwriting recognition
Peng et al. Document image quality assessment using discriminative sparse representation
CN114332871A (zh) 一种字符识别方法、装置、设备及存储介质
CN111242114B (zh) 文字识别方法及装置
Liu et al. Multi-digit recognition with convolutional neural network and long short-term memory
CN116798044A (zh) 文本识别方法、装置,以及电子设备
CN113903043B (zh) 一种基于孪生度量模型的印刷汉字字体识别方法
CN115311595A (zh) 视频特征提取方法、装置及电子设备
CN112329389B (zh) 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant