CN112270316B - 文字识别、文字识别模型的训练方法、装置和电子设备 - Google Patents

文字识别、文字识别模型的训练方法、装置和电子设备 Download PDF

Info

Publication number
CN112270316B
CN112270316B CN202011012497.0A CN202011012497A CN112270316B CN 112270316 B CN112270316 B CN 112270316B CN 202011012497 A CN202011012497 A CN 202011012497A CN 112270316 B CN112270316 B CN 112270316B
Authority
CN
China
Prior art keywords
neural network
target
cyclic neural
character recognition
cyclic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011012497.0A
Other languages
English (en)
Other versions
CN112270316A (zh
Inventor
张婕蕾
万昭祎
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202011012497.0A priority Critical patent/CN112270316B/zh
Publication of CN112270316A publication Critical patent/CN112270316A/zh
Application granted granted Critical
Publication of CN112270316B publication Critical patent/CN112270316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种文字识别、文字识别模型的训练方法、装置和电子设备,涉及图像处理的技术领域,包括:通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;确定每个循环神经网络的目标输入参数,其中,目标输入参数包括:待识别图像的特征向量,或者,待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果;将目标输入参数和注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为待识别图像的字符识别结果,本申请缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。

Description

文字识别、文字识别模型的训练方法、装置和电子设备
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种文字识别、文字识别模型的训练方法、装置和电子设备。
背景技术
近年来,场景文字识别在模式识别领域的应用越来越广泛,它可以应用到图像检索、智能交通、人机交互等领域。
近几十年场景文字识别被广泛研究,现在针对场景文字识别的方法越来越多,且场景文字识别方法的准确率也在不断地提高。但是,现有的场景文字识别的方法存在词汇依赖性,即场景文字识别模型的输出往往会受到训练集语料的影响。例如,如图1所示,左侧两个图分别为训练集语料,右侧两个图分别为待识别的图片。从右侧图中可以看出,该模型将“UNIVERSITI”识别为“UNIVERSITY”,该识别过程就可以表明该模型受到训练集语料的影响,导致识别错误。
发明内容
有鉴于此,本发明的目的在于提供一种文字识别、文字识别模型的训练方法、装置和电子设备,以缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
第一方面,本发明实施例提供了一种文字识别方法,应用于文字识别模型,所述文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据;所述方法包括:通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;确定每个循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果;将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
进一步地,确定每个循环神经网络的目标输入参数包括:若确定出预先为每个循环神经网络设置了对应的目标概率,判断所述目标概率是否大于或者等于预设概率阈值;所述目标概率用于确定所述目标输入参数中是否包含所述上一个循环神经网络输出的字符识别结果;若所述目标概率大于或者等于预设概率阈值,则确定每个循环神经网络的目标输入参数中包含所述上一个循环神经网络输出的字符识别结果和所述待识别图像的特征向量。
进一步地,确定每个循环神经网络所对应的目标概率包括:通过概率生成器为每个循环神经网络随机生成所述目标概率;或者;通过目标神经网络为每个循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:每个循环神经网络在所述多个循环神经网络中的位置信息,每个循环神经网络的注意力权重值,所述待识别图像的特征向量。
进一步地,若全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
第二方面,本发明实施例提供了一种文字识别模型的训练方法,所述文字识别模型包括:注意力模型和多个第一循环神经网络,所述注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据;所述方法包括:通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值;确定每个第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述训练集语料的特征向量和所述目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果;利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
进一步地,确定每个第一循环神经网络的目标输入参数包括:若确定出预先为每个第一循环神经网络设置了对应的目标概率,则判断所述目标概率是否大于或者等于预设概率阈值;其中,所述目标概率用于确定所述目标输入参数中是否包含所述上一个第一循环神经网络输出的字符识别结果;若所述目标概率大于或者等于预设概率阈值,则确定所述目标第一循环神经网络的目标输入参数中包含所述上一个第一循环神经网络输出的字符识别结果和所述训练集语料的特征向量。
进一步地,所述方法还包括:通过概率生成器为每个第一循环神经网络随机生成所述目标概率;或者;通过目标神经网络为每个第一循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:所述目标第一循环神经网络在所述多个第一循环神经网络中的位置信息,所述目标第一循环神经网络的注意力权重值,所述训练集语料的特征向量。
进一步地,若所述多个第一循环神经网络中的全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
进一步地,所述方法还包括:获取所述多个第一循环神经网络中最后一个第一循环神经网络的输出的字符识别结果,得到第一输出结果;获取所述多个第二循环神经网络中最后一个第二循环神经网络的输出的字符识别结果,得到第二输出结果;利用所述第一输出结果和第二输出结果计算目标损失值;通过所述目标损失值对所述文字识别模型进行训练。
进一步地,所述循环神经网络为长短期记忆网络LSTM。
第三方面,本发明实施例提供了一种文字识别装置,应用于文字识别模型,所述文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据;所述装置包括:第一处理单元,用于通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;第一确定单元,用于确定每个循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果;第二处理单元,用于将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
第四方面,本发明实施例提供了一种文字识别模型的训练装置,所述文字识别模型包括:注意力模型和多个第一循环神经网络,所述注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据;所述装置包括:第三处理单元,用于通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值;第二确定单元,用于确定每个第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述训练集语料的特征向量和所述目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果;训练单元,用于利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
第五方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或者第二方面中任一项所述的方法的步骤。
第六方面,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述第一方面或者第二方面中任一项所述的方法的步骤。
通过上述描述可知,现有的场景文字识别模型容易受到训练集语料的影响,发明人发现,在场景文字识别模型的每一个识别步骤的输出数据都会成为后一个步骤的输入,因此,这将导致现有的场景文字识别模型具有一定的序列建模型,也就是语言模型的建立。由于现有的场景文字识别模型中语言模型的结构将导致该模型对词汇依赖性上表现较强。基于此,在本申请中,提出了一种文字识别方法。
在本发明实施例所提供的文字识别方法中,采用文字识别模型来对待识别图像进文字识别,该文字识别模型中的多个循环神经网络中部分或者全部循环神经网络的输入数据不再包含上一个与之相连的循环神经网络的输出数据,从而得到减少多个循环神经网络在文字识别过程中的词汇依赖性的技术效果进而缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术的一种文字识别结果的示意图;
图2是根据本发明实施例的一种电子设备的结构示意图;
图3是根据本发明实施例的一种文字识别方法的流程图;
图4是根据本发明实施例的第一种文字识别模型的示意图;
图5是根据本发明实施例的第二种文字识别模型的示意图;
图6是根据本发明实施例的一种文字识别模型的训练方法的流程图;
图7是根据本发明实施例的第三种文字识别模型的示意图;
图8是根据本发明实施例的一种文字识别装置的示意图;
图9是根据本发明实施例的一种文字识别模型的训练装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
首先,参照图2来描述用于实现本发明实施例的电子设备100,该电子设备可以用于运行本发明各实施例的文字识别方法或者文字识别模型的训练方法。
如图2所示,电子设备100包括一个或多个处理器102、一个或多个存储器104。可选的,电子设备100还可以包括输入装置106、输出装置108以及图像采集装置110,这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意,图2所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有图2所示的部分组件,或者具有图2未示出的其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP,Digital Signal Processing)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、可编程逻辑阵列(PLA,Programmable Logic Array)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU,Central ProcessingUnit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110用于进行获取待识别图像,其中,图像采集装置所采集的图像经过所述文字识别方法得到字符识别结果。
实施例2:
根据本发明实施例,提供了一种文字识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
需要说明的是,在本申请中,该方法可以应用于文字识别模型,该文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据。
如图4所示的为一种文字识别模型的结构图,从图4中可以看出,该文字识别模型包括注意力模型Attend、多个循环神经网络LSTM长短期记忆网络(Long Short-TermMemory),从图4中可以看出,多个循环神经网络串联连接。在图4中,ht为待识别图像的特征向量,αt为注意力模型Attend输出的注意力权重值,st-1为循环神经网络LSTM的输出结果,gt为待识别图像的特征向量和注意力权重值进行相乘运算之后的结果。
发明人发现,在如图4所示的文字识别模型,如果除了最后一个循环神经网络之外,每个循环神经网络的输出都会作为下一个循环神经网络的输入此时,那么多个循环神经网络有一定的序列建模性,也就是语言模型的建立。多个循环神经网络之间的这种处理方式将导致文字识别模型在词汇依赖性上表现较强。因此,在本申请中,设置多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据。也就是说,针对多个循环神经网络中的部分或者全部循环神经网络,抛弃上一个与之相连的循环神经网络的输出结果。
图3是根据本发明实施例的一种文字识别方法的流程图。如图3所示,该方法包括如下步骤:
步骤S302,通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值。
如图4所示,针对循环神经网络LSTM2来说,通过注意力模型Attend为LSTM2生成注意力权重值,具体生成过程可以描述为:
获取循环神经网络LSTM2的上一个循环神经网络LSTM1的输出结果st-1,然后,获取待识别图像的特征向量ht,对输出结果st-1和待识别图像的特征向量ht进行处理,得到循环神经网络LSTM2的注意力权重值αt
步骤S304,确定每个循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果。
需要说明的是,在本申请中,设置多个循环神经网络中的部分或者全部循环神经网络不再接收上一个循环神经网络的输出结果。因此,在本申请中,需要确定每个循环神经网络的目标输入参数。例如,确定出LSTM1的目标输入参数为待识别图像的特征向量,以及确定出LSTM2的目标输入参数为待识别图像的特征向量,以及确定出LSTM3的目标输入参数为待识别图像的特征向量和循环神经网络LSTM2输出的字符识别结果等。
步骤S306,将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
通过上述描述可知,现有的场景文字识别模型容易受到训练集语料的影响,发明人发现,在场景文字识别模型的每一个识别步骤的输出数据都会成为后一个步骤的输入,因此,这将导致现有的场景文字识别模型具有一定的序列建模型,也就是语言模型的建立。由于现有的场景文字识别模型中语言模型的结构将导致该模型对词汇依赖性上表现较强。基于此,在本申请中,提出了一种文字识别方法。
在本发明实施例所提供的文字识别方法中,采用文字识别模型来对待识别图像进文字识别,该文字识别模型中的多个循环神经网络中部分或者全部循环神经网络的输入数据不再包含上一个与之相连的循环神经网络的输出数据,从而得到减少多个循环神经网络在文字识别过程中的词汇依赖性的技术效果进而缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
在本申请的一个可选实施方式中,步骤S304,确定每个循环神经网络的目标输入参数包括如下过程:
首先,可以判断是否预先为每个循环神经网络设置了对应的目标概率;
其中,若确定出预先为每个循环神经网络设置了对应的目标概率,则继续判断所述目标概率是否大于或者等于预设概率阈值;所述目标概率用于确定所述目标输入参数中是否包含所述上一个循环神经网络输出的字符识别结果。若确定出未预先为每个循环神经网络设置了对应的目标概率,则确定目标输入参数中不包含上一个循环神经网络输出的字符识别结果。
其次,若所述目标概率大于或者等于预设概率阈值,则确定每个循环神经网络的目标输入参数中包含所述上一个循环神经网络输出的字符识别结果和所述待识别图像的特征向量。
需要说明的是,在本申请中,预设概率阈值可以设定为0.2,除此之外,还可以设定为其他的阈值,本申请对此不作具体限定,用户可以根据实际需要来进行选择。
在本申请中,如图5所示,除了第一个循环神经网络之外,针对每个循环神经网络,都可以在其输入的位置设置对应的目标序列rand(1,0)。
假设,预设概率阈值为0.2,图5中,LSTM2所对应的目标概率为0.5。通过比较可知,LSTM2所对应的目标概率大于预设概率,此时,就可以将LSTM1的输出结果与目标序列rand中的1相乘,并将相乘之后的结果输送到LSTM2的输入端。
假设,预设概率阈值为0.2,图5中,LSTM2所对应的目标概率为0.1。通过比较可知,LSTM2所对应的目标概率小于预设概率,此时,就可以将LSTM1的输出结果与目标序列rand中的0相乘,从而实现LSTM1的输出结果不输送到LSTM2的输入端。
通过上述描述可知,在本申请中,为每个循环神经网络预先设置了对应的目标概率,然后,针对每个循环神经网络的输出结果(例如,输出的字符)均以一定的概率决定是否作为下一个循环神经网络的输入数据。采用该方式想等于对训练集语料的字符进行抛弃,因此该方法能够减缓多个循环神经网络对训练集语料的依赖。
在一个可选的实施方式中,可以通过以下几种方式确定每个循环神经网络所对应的目标概率,具体包括:
方式一、
通过概率生成器为每个循环神经网络随机生成所述目标概率。
在一种方式中,可以预先设置一个概率生成器,该概率生成器可以为每个循环神经网络预先随机生成对应的目标概率。
在一种方式中,可以预先设置一个概率生成器,在文字识别模型的训练阶段,该概率生成器也可以预先为每个循环神经网络随机生成对应的初始概率。然后,在对文字识别模型进行训练的过程中,可以调整初始概率的数值,使得文字识别模型的精度满足预设的要求,并将满足预设的要求是的初始概率确定为目标概率。
方式二、
通过目标神经网络为每个循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:每个循环神经网络在所述多个循环神经网络中的位置信息,每个循环神经网络的注意力权重值,所述待识别图像的特征向量。
在另一个可选的实施方式中,可以预先设置一个目标神经网络,该目标神经网络的输出数据为多个循环神经网络的目标概率,该目标神经网络的输入数据可以为以下数据的一种或者多种:每个循环神经网络在多个循环神经网络中的位置信息,每个循环神经网络的注意力权重值,待识别图像的特征向量。
如图4所示,多个循环神经网络依次连接,每个循环神经网络在多个循环神经网络中的位置信息可以理解为每个循环神经网络在依次连接的多个循环神经网络中所处的位置。例如,LSTM1在多个循环神经网络中所处的位置信息为“1”,再例如,LSTM2在多个循环神经网络中所处的位置信息为“2”等。需要说明的是,位于不同位置的循环神经网络的数据处理的过程和其重要程度不同,因此,可以将该位置信息作为目标神经网络的输入。
在本申请的另一个可选的实施方式中,若所述多个第一循环神经网络中的全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则文字识别模型还包括,目标语言模型。如图7所示,所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
在本申请中,每个第一循环神经网络的输出结果都不会送入下一个第一循环神经网络中,基于此,在本申请中,在每个第一循环神经网络后再接一个第二循环神经网络,以通过多个第二循环神经网络对多个第一循环神经网络进行辅助训练,具体训练过程在下述实施例中进行介绍。
实施例3:
根据本发明实施例,提供了一种文字识别模型的训练方法的实施例。
需要说明的是,在本申请中,该文字识别模型包括:注意力模型和多个第一循环神经网络,注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据。在本申请中,循环神经网络可以为长短期记忆网络LSTM。
图6是根据本发明实施例的一种文字识别模型的训练方法的流程图。如图6所示,该方法包括如下步骤:
步骤S602,通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值。
如图4或者图7所示,针对循环神经网络LSTM2来说,通过注意力模型Attend为LSTM2生成注意力权重值,具体生成过程可以描述为:
获取循环神经网络LSTM2的上一个循环神经网络LSTM1的输出结果st-1,然后,获取待识别图像的特征向量ht,对输出结果st-1和待识别图像的特征向量ht进行处理,得到循环神经网络LSTM2的注意力权重值αt
步骤S604,确定每个第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述训练集语料的特征向量和所述目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果。
需要说明的是,在本申请中,设置多个第一循环神经网络中的部分或者全部第一循环神经网络不再接收上一个第一循环神经网络的输出结果。因此,在本申请中,需要确定每个第一循环神经网络的目标输入参数。例如,确定出LSTM1的目标输入参数为待识别图像的特征向量,以及确定出LSTM2的目标输入参数为待识别图像的特征向量,以及确定出LSTM3的目标输入参数为待识别图像的特征向量和循环神经网络LSTM2输出的字符识别结果等。
步骤S606,利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
在本发明中,采用文字识别模型来对待识别图像进文字识别,该文字识别模型中的多个循环神经网络中部分或者全部循环神经网络的输入数据不再包含上一个与之相连的循环神经网络的输出数据,从而得到减少多个循环神经网络在文字识别过程中的词汇依赖性的技术效果进而缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
在本申请的一个可选实施方式中,步骤S604,确定每个第一循环神经网络的目标输入参数包括如下过程:
在本申请中,可以首先判断是否预先为每个第一循环神经网络设置了对应的目标概率。若确定出预先为每个第一循环神经网络设置了对应的目标概率,则继续判断所述目标概率是否大于或者等于预设概率阈值;其中,所述目标概率用于确定所述目标输入参数中是否包含所述上一个第一循环神经网络输出的字符识别结果。若确定出未预先为每个第一循环神经网络设置了对应的目标概率,则确定目标输入参数中不包含上一个第一循环神经网络输出的字符识别结果。
若所述目标概率大于或者等于预设概率阈值,则确定所述目标第一循环神经网络的目标输入参数中包含所述上一个第一循环神经网络输出的字符识别结果和所述训练集语料的特征向量。
需要说明的是,在本申请中,预设概率阈值可以设定为0.2,除此之外,还可以设定为其他的阈值,本申请对此不作具体限定,用户可以根据实际需要来进行选择。
在本申请中,如图5所示,除了第一个循环神经网络之外,针对每个第一循环神经网络,都可以在其输入的位置设置对应的目标序列rand(1,0)。
假设,预设概率阈值为0.2,图5中,LSTM2所对应的目标概率为0.5。通过比较可知,LSTM2所对应的目标概率大于预设概率,此时,就可以将LSTM1的输出结果与目标序列rand中的1相乘,并将相乘之后的结果输送到LSTM2的输入端。
假设,预设概率阈值为0.2,图5中,LSTM2所对应的目标概率为0.1。通过比较可知,LSTM2所对应的目标概率小于预设概率,此时,就可以将LSTM1的输出结果与目标序列rand中的0相乘,从而实现LSTM1的输出结果不输送到LSTM2的输入端。
在本申请中,在按照上述所描述的方式确定每个第一循环神经网络的目标输入参数之后,就可以利用目标输入参数、注意力权重值和目标标签信息对文字识别模型进行训练,得到训练之后的所述文字识别模型。需要说明的是,在本申请中,目标标签信息可以理解为训练集语料中所包含的实际文字序列。
通过上述描述可知,在本申请中,为每个第一循环神经网络预先设置了对应的目标概率,然后,针对每个第一循环神经网络的输出结果(例如,输出的字符)均以一定的概率决定是否作为下一个第一循环神经网络的输入数据。采用该方式想等于对训练集语料的字符进行抛弃,因此该方法能够减缓多个第一循环神经网络对训练集语料的依赖。
在一个可选的实施方式中,可以通过以下几种方式确定每个第一循环神经网络所对应的目标概率,具体包括:
方式一:
通过概率生成器为每个第一循环神经网络随机生成所述目标概率。
在一种方式中,可以预先设置一个概率生成器,该概率生成器可以为每个第一循环神经网络预先随机生成对应的目标概率。
方式二:
通过目标神经网络为每个第一循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:所述目标第一循环神经网络在所述多个第一循环神经网络中的位置信息,所述目标第一循环神经网络的注意力权重值,所述训练集语料的特征向量。
在另一个可选的实施方式中,可以预先设置一个目标神经网络,该目标神经网络的输出数据为多个第一循环神经网络的目标概率,该目标神经网络的输入数据可以为以下数据的一种或者多种:每个第一循环神经网络在多个第一循环神经网络中的位置信息,每个第一循环神经网络的注意力权重值,待识别图像的特征向量。
如图4所示,多个第一循环神经网络依次连接,每个第一循环神经网络在多个第一循环神经网络中的位置信息可以理解为每个第一循环神经网络在依次连接的多个第一循环神经网络中所处的位置。例如,LSTM1在多个第一循环神经网络中所处的位置信息为“1”,再例如,LSTM2在多个第一循环神经网络中所处的位置信息为“2”等。需要说明的是,位于不同位置的循环神经网络的数据处理的过程和其重要程度不同,因此,可以将该位置信息作为目标神经网络的输入。
在本申请的另一个可选的实施方式中,若所述多个第一循环神经网络中的全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则文字识别模型还包括,目标语言模型。如图7所示,所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
在本申请中,每个第一循环神经网络的输出结果都不会送入下一个第一循环神经网络中,基于此,在本申请中,在每个第一循环神经网络后再接一个第二循环神经网络,以通过多个第二循环神经网络对多个第一循环神经网络进行辅助训练。
如图7所示,介绍该文字识别模型的处理过程,具体可以描述为:
针对多个第一循环神经网络中的每个神经网络,处理过程描述如下:
首先,注意力模型获取训练集语料的特征向量,然后,获取上一个第一循环神经网络的输出结果,并将该输出结果和训练集语料的特征向量确定为当前第一循环神经网络的输入数据。接下来,当前第一循环神经网络对该输入数据进行处理,得到输出结果(例如,字符识别结果),接下来,当前第一循环神经网络将输出结果输入到注意力模型和对应的第二循环神经网络中进行处理。
针对多个第二循环神经网络中的每个神经网络,处理过程描述如下:
当前第二循环神经网络获取上一个第二循环神经网络的输出结果,并获取与之相连接的第一循环神经网络的输出结果;从而对这两个输出结果进行处理,得到当前第二循环神经网络的输出结果,同时,当前第二循环神经网络的输出结果输送到下一个第二循环神经网络中进行处理。
按照上述所描述的过程,在本申请中,可以首先获取所述多个第一循环神经网络中最后一个第一循环神经网络的输出的字符识别结果,得到第一输出结果。然后,获取所述多个第二循环神经网络中最后一个第二循环神经网络的输出的字符识别结果,得到第二输出结果;接下来,利用所述第一输出结果和第二输出结果计算目标损失值;最后,通过所述目标损失值对所述文字识别模型进行训练。
通过上述描述可知,在本申请中,单独建立序列模型(即,多个第一循环神经网络),该单独建立的序列模型重点关注图像特征,同时将目标语言模型作为该序列模型的辅助。该方法使前一分支的输出(即,多个第一循环神经网络)的语言建模能力弱化,有效缓解模型对词汇的依赖性。
实施例4:
本发明实施例还提供了一种文字识别装置,该文字识别装置主要用于执行本发明实施例上述内容所提供的文字识别方法,以下对本发明实施例提供的文字识别装置做具体介绍。
图8是根据本发明实施例的一种文字识别装置的示意图。该装置应用于文字识别模型,所述文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据。
如图8所示,该文字识别装置主要包括第一处理单元81,第一确定单元82和第二处理单元83,其中:
第一处理单元81,用于通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;
第一确定单元82,用于确定每个循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果;
第二处理单元83,用于将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
在本发明中,采用文字识别模型来对待识别图像进文字识别,该文字识别模型中的多个循环神经网络中部分或者全部循环神经网络的输入数据不再包含上一个与之相连的循环神经网络的输出数据,从而得到减少多个循环神经网络在文字识别过程中的词汇依赖性的技术效果进而缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
可选地,第一确定单元用于:若确定出预先为每个循环神经网络设置了对应的目标概率,判断所述目标概率是否大于或者等于预设概率阈值;所述目标概率用于确定所述目标输入参数中是否包含所述上一个循环神经网络输出的字符识别结果;若所述目标概率大于或者等于预设概率阈值,则确定每个循环神经网络的目标输入参数中包含所述上一个循环神经网络输出的字符识别结果和所述待识别图像的特征向量。
可选地,第一确定单元还用于:通过概率生成器为每个循环神经网络随机生成所述目标概率;或者;通过目标神经网络为每个循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:每个循环神经网络在所述多个循环神经网络中的位置信息,每个循环神经网络的注意力权重值,所述待识别图像的特征向量。
可选地,该装置还用于:若全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
实施例5:
图9是根据本发明实施例的一种文字识别模型的训练装置的示意图。所述文字识别模型包括:注意力模型和多个第一循环神经网络,所述注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据。
如图9所示,该文字识别模型的训练装置主要包括第三处理单元91,第二确定单元92和训练单元93,其中:
第三处理单元91,用于通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值;
第二确定单元92,用于确定每个第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述训练集语料的特征向量和所述目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果;
训练单元93,用于利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
在本发明中,采用文字识别模型来对待识别图像进文字识别,该文字识别模型中的多个循环神经网络中部分或者全部循环神经网络的输入数据不再包含上一个与之相连的循环神经网络的输出数据,从而得到减少多个循环神经网络在文字识别过程中的词汇依赖性的技术效果进而缓解现有的场景文字识别模型由于容易受训练集语料影响导致识别准确度不高的技术问题。
可选地,第二确定单元用于:若确定出预先为每个第一循环神经网络设置了对应的目标概率,则判断所述目标概率是否大于或者等于预设概率阈值;其中,所述目标概率用于确定所述目标输入参数中是否包含所述上一个第一循环神经网络输出的字符识别结果;若所述目标概率大于或者等于预设概率阈值,则确定所述目标第一循环神经网络的目标输入参数中包含所述上一个第一循环神经网络输出的字符识别结果和所述训练集语料的特征向量。
可选地,第二确定单元用于:通过概率生成器为每个第一循环神经网络随机生成所述目标概率;或者;通过目标神经网络为每个第一循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:所述目标第一循环神经网络在所述多个第一循环神经网络中的位置信息,所述目标第一循环神经网络的注意力权重值,所述训练集语料的特征向量。
可选地,若所述多个第一循环神经网络中的全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
可选地,所述装置还用于:获取所述多个第一循环神经网络中最后一个第一循环神经网络的输出的字符识别结果,得到第一输出结果;获取所述多个第二循环神经网络中最后一个第二循环神经网络的输出的字符识别结果,得到第二输出结果;利用所述第一输出结果和第二输出结果计算目标损失值;通过所述目标损失值对所述文字识别模型进行训练。
可选地,所述循环神经网络为长短期记忆网络LSTM。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种文字识别方法,其特征在于,应用于文字识别模型,所述文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据;所述方法包括:
通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;
基于每个所述循环神经网络的目标概率确定每个所述循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果,所述目标概率用于确定所述目标输入参数中是否包含所述上一个循环神经网络输出的字符识别结果;
将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
2.根据权利要求1所述的方法,其特征在于,基于每个所述循环神经网络的目标概率确定每个所述循环神经网络的目标输入参数包括:
若确定出预先为每个循环神经网络设置了对应的目标概率,判断所述目标概率是否大于或者等于预设概率阈值;
若所述目标概率大于或者等于预设概率阈值,则确定每个循环神经网络的目标输入参数中包含所述上一个循环神经网络输出的字符识别结果和所述待识别图像的特征向量。
3.根据权利要求2所述的方法,其特征在于,确定每个循环神经网络所对应的目标概率包括:
通过概率生成器为每个循环神经网络随机生成所述目标概率;
或者;
通过目标神经网络为每个循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:每个循环神经网络在所述多个循环神经网络中的位置信息,每个循环神经网络的注意力权重值,所述待识别图像的特征向量。
4.根据权利要求1所述的方法,其特征在于,若全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
5.一种文字识别模型的训练方法,其特征在于,所述文字识别模型包括:注意力模型和多个第一循环神经网络,所述注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据;所述方法包括:
通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值;
基于每个所述第一循环神经网络的目标概率确定每个所述第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:待识别图像的特征向量,或者,所述训练集语料的特征向量和目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果,所述目标概率用于确定所述目标输入参数中是否包含所述上一个第一循环神经网络输出的字符识别结果;
利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
6.根据权利要求5所述的方法,其特征在于,基于每个所述第一循环神经网络的目标概率确定每个所述第一循环神经网络的目标输入参数包括:
若确定出预先为每个第一循环神经网络设置了对应的目标概率,则判断所述目标概率是否大于或者等于预设概率阈值;
若所述目标概率大于或者等于预设概率阈值,则确定所述目标第一循环神经网络的目标输入参数中包含所述上一个第一循环神经网络输出的字符识别结果和所述训练集语料的特征向量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过概率生成器为每个第一循环神经网络随机生成所述目标概率;
或者;
通过目标神经网络为每个第一循环神经网络随机生成所述目标概率,其中,所述目标神经网络的输入参数包括:所述目标第一循环神经网络在所述多个第一循环神经网络中的位置信息,所述目标第一循环神经网络的注意力权重值,所述训练集语料的特征向量。
8.根据权利要求5所述的方法,其特征在于,若所述多个第一循环神经网络中的全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据,则所述文字识别模型还包括:目标语言模型;所述目标语言模型包括:多个第二循环神经网络,多个第二循环神经网络串联连接,多个第二循环神经网络中的全部第二循环神经网络的输入数据包含上一个与之相连的第二循环神经网络的输出数据,且多个第二循环神经网络与多个第一循环神经网络一一对应连接。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述多个第一循环神经网络中最后一个第一循环神经网络的输出的字符识别结果,得到第一输出结果;
获取所述多个第二循环神经网络中最后一个第二循环神经网络的输出的字符识别结果,得到第二输出结果;
利用所述第一输出结果和第二输出结果计算目标损失值;
通过所述目标损失值对所述文字识别模型进行训练。
10.根据权利要求5至9中任一项所述的方法,其特征在于,所述循环神经网络为长短期记忆网络LSTM。
11.一种文字识别装置,其特征在于,应用于文字识别模型,所述文字识别模型包括:注意力模型和多个循环神经网络,所述注意力模型和每个循环神经网络相连接,多个循环神经网络串联连接,其中,多个循环神经网络中的部分或者全部循环神经网络的输入数据不包含上一个与之相连的循环神经网络的输出数据;所述装置包括:
第一处理单元,用于通过注意力模型对待识别图像的特征向量进行处理,得到每个循环神经网络的注意力权重值;
第一确定单元,用于基于每个所述循环神经网络的目标概率确定每个所述循环神经网络的目标输入参数,其中,所述目标输入参数包括:所述待识别图像的特征向量,或者,所述待识别图像的特征向量和当前循环神经网络的上一个循环神经网络输出的字符识别结果,所述目标概率用于确定所述目标输入参数中是否包含所述上一个循环神经网络输出的字符识别结果;
第二处理单元,用于将所述目标输入参数和所述注意力权重值输入至每个循环神经网络进行处理,得到字符识别结果,并将最后一个循环神经网络输出的字符识别结果确定为所述待识别图像的字符识别结果,其中,所述字符识别结果表示待识别字符所属于各个预设字符的概率。
12.一种文字识别模型的训练装置,其特征在于,所述文字识别模型包括:注意力模型和多个第一循环神经网络,所述注意力模型和每个第一循环神经网络相连接,多个第一循环神经网络串联连接,其中,多个第一循环神经网络中的部分或者全部第一循环神经网络的输入数据不包含上一个与之相连的第一循环神经网络的输出数据;所述训练装置包括:
第三处理单元,用于通过注意力模型对训练集语料的特征向量进行处理,得到每个第一循环神经网络的注意力权重值;
第二确定单元,用于基于每个所述第一循环神经网络的目标概率确定每个所述第一循环神经网络的目标输入参数,其中,所述目标输入参数包括:待识别图像的特征向量,或者,所述训练集语料的特征向量和目标第一循环神经网络的上一个第一循环神经网络输出的字符识别结果,所述目标概率用于确定所述目标输入参数中是否包含所述上一个第一循环神经网络输出的字符识别结果;
训练单元,用于利用所述目标输入参数、所述注意力权重值和目标标签信息对所述文字识别模型进行训练,得到训练之后的所述文字识别模型,其中,所述目标标签信息为所述训练集语料中所包含的实际文字序列。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的文字识别方法,或上述权利要求5至10中任一项所述的文字识别模型的训练方法的步骤。
14.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至4任一项所述的文字识别方法,或上述权利要求5至10中任一项所述的文字识别模型的训练方法的步骤。
CN202011012497.0A 2020-09-23 2020-09-23 文字识别、文字识别模型的训练方法、装置和电子设备 Active CN112270316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011012497.0A CN112270316B (zh) 2020-09-23 2020-09-23 文字识别、文字识别模型的训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011012497.0A CN112270316B (zh) 2020-09-23 2020-09-23 文字识别、文字识别模型的训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112270316A CN112270316A (zh) 2021-01-26
CN112270316B true CN112270316B (zh) 2023-06-20

Family

ID=74349208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011012497.0A Active CN112270316B (zh) 2020-09-23 2020-09-23 文字识别、文字识别模型的训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112270316B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法
EP3493119A1 (en) * 2017-12-04 2019-06-05 Samsung Electronics Co., Ltd. Language processing method and apparatus
CN110210480A (zh) * 2019-06-05 2019-09-06 北京旷视科技有限公司 文字识别方法、装置、电子设备和计算机可读存储介质
CN111667066A (zh) * 2020-04-23 2020-09-15 北京旷视科技有限公司 网络模型的训练、文字识别方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10650230B2 (en) * 2018-06-13 2020-05-12 Sap Se Image data extraction using neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3493119A1 (en) * 2017-12-04 2019-06-05 Samsung Electronics Co., Ltd. Language processing method and apparatus
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法
CN110210480A (zh) * 2019-06-05 2019-09-06 北京旷视科技有限公司 文字识别方法、装置、电子设备和计算机可读存储介质
CN111667066A (zh) * 2020-04-23 2020-09-15 北京旷视科技有限公司 网络模型的训练、文字识别方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint Line Segmentation and Transcription for End-to-End Handwritten Paragraph Recognition;Theodore Bluche;《arXiv:1604.08352v1》;20160428;全文 *
LSTM逐层多目标优化及多层概率融合的图像描述;汤鹏杰等;《自动化学报》;20171211(第07期);全文 *

Also Published As

Publication number Publication date
CN112270316A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN107767870B (zh) 标点符号的添加方法、装置和计算机设备
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
US20180101770A1 (en) Method and system of generative model learning, and program product
CN111667066B (zh) 网络模型的训练、文字识别方法、装置和电子设备
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
CN108897852B (zh) 对话内容连贯性的判断方法、装置以及设备
CN112397057B (zh) 基于生成对抗网络的语音处理方法、装置、设备及介质
CN116363261B (zh) 图像编辑模型的训练方法、图像编辑方法和装置
JP7270114B2 (ja) 顔キーポイントの検出方法、装置及び電子機器
CN110895656B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN113987269A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN108875502B (zh) 人脸识别方法和装置
CN113886644A (zh) 数字人视频生成方法、装置、电子设备和存储介质
CN115101069A (zh) 语音控制方法、装置、设备、存储介质以及程序产品
CN115761839A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN112786027B (zh) 一种语音输入矫正处理方法、装置、电子设备及存储介质
CN112270316B (zh) 文字识别、文字识别模型的训练方法、装置和电子设备
CN110288668B (zh) 图像生成方法、装置、计算机设备及存储介质
CN117236340A (zh) 问答方法、装置、设备和介质
CN115248846B (zh) 文本识别方法、设备、介质
CN108897872B (zh) 对话处理方法、装置、计算机设备和存储介质
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN112509559B (zh) 音频识别方法、模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant