CN114581918A - 一种文本识别模型训练方法及装置 - Google Patents

一种文本识别模型训练方法及装置 Download PDF

Info

Publication number
CN114581918A
CN114581918A CN202210223227.7A CN202210223227A CN114581918A CN 114581918 A CN114581918 A CN 114581918A CN 202210223227 A CN202210223227 A CN 202210223227A CN 114581918 A CN114581918 A CN 114581918A
Authority
CN
China
Prior art keywords
picture
text
sample
target
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210223227.7A
Other languages
English (en)
Inventor
张鹏远
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Publication of CN114581918A publication Critical patent/CN114581918A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文本识别模型训练方法及装置,其中所述文本识别模型训练方法包括:确定样本训练集,所述样本训练集包括目标样本图片、及其对应的样本标签;将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述目标损失值调整所述文本识别模型的参数,直至达到训练停止条件。

Description

一种文本识别模型训练方法及装置
技术领域
本申请涉及计算机技术的人工智能领域,特别涉及一种文本识别模型训练方法及装置、计算设备和计算机可读存储介质。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的***感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。
近年来,机器学习领域印象最深刻的进步出现在深度学习子领域(又称深度神经网络学习)。深度神经网络学习(deep learning)是指通过训练具有许多隐藏层的神经网络来创建丰富层次表示的方法。且利用简单计算单元(即“神经元”)组成多层网络,其中,每个单元将一组输入值组合以产生一个输出值,并将该值传递给下游其他神经元。
相应地,许多自然场景中包含着丰富的文本信息,识别这些信息对于理解自然场景图像有十分重要的作用。但是,场景文本识别中由于图像中文字字体多样、图像的背景多样、图像模糊或者分辨率较低,以及图像的排版方式多样等,而存在文本识别模型对文本识别率低且运算速度慢的问题。
发明内容
有鉴于此,本申请实施例提供了一种文本识别模型训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种文本识别模型训练方法,包括:
所述文本识别模型包括卷积层、自注意力机制编码层、全连接层;
确定样本训练集,其中,所述样本训练集包括目标样本图片以及所述目标样本图片对应的样本标签;
将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;
将所述目标样本图片的卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述目标损失值调整所述文本识别模型的参数,直至达到训练停止条件。
根据本申请实施例的第二方面,提供了一种文本识别模型训练装置,包括:
所述文本识别模型包括卷积层模块、自注意力机制编码层模块、全连接层模块;
所述卷积层模块,被配置为确定样本训练集,其中,所述样本训练集包括目标样本图片以及所述目标样本图片对应的样本标签,将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;
所述自注意力机制编码层模块,被配置为将所述目标样本图片的卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
所述全连接层模块,被配置为将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述损失值调整所述文本识别模型的参数,直至达到训练停止条件。
根据本申请实施例的第三方面,提供了一种文本识别方法,包括:
接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片;
将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,其中,所述文本识别模型采用上述文本识别模型训练方法获得,所述图片检测模型为所述文本识别模型训练方法的图片检测模型。
根据本申请实施例的第四方面,提供了一种文本识别装置,包括:
检测模块,被配置为接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片;
识别模块,被配置为将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,其中,所述文本识别模型采用上述文本识别模型训练方法获得,所述图片检测模型为所述文本识别模型训练方法的图片检测模型。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本识别模型训练方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本识别模型训练方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述文本识别模型训练方法的步骤。
本申请实施例中,通过将样本训练集输入卷积层进行卷积处理,获得目标样本图片的卷积向量,并将卷积向量输入至自注意力机制编码层进行编码,获得编码向量,并通过全连接层计算目标损失值,以调整文本识别模型的参数,直至达到训练停止条件,该模型中利用自注意力机制编码层不仅使得该文本识别模型提出的特征更具有代表性和序列化性,且将提取的特征通过全连接层计算目标损失值,以调整该文本识别模型的参数,使得目标损失值减小,进而提高对文本识别的准确率。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的文本识别模型训练方法中的文本识别模型结构示意图;
图3是本申请实施例提供的文本识别模型训练方法的流程图;
图4是本申请实施例提供的文本识别模型训练方法中全连接层的结构示意图;
图5是本申请实施例提供的文本识别模型训练方法的的具体应用过程流程图;
图6是本申请实施例提供的文本识别方法的流程图;
图7是本申请实施例提供的文本识别模型训练装置的结构示意图;
图8是本申请实施例提供的文本识别装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
文本检测:给定文本图像,自动检测出该文本图像中的文本内容。
贝塞尔曲线(Bezier):又称贝兹曲线或贝济埃曲线,是应用于二维图形应用程序的数学曲线,它是依据任意四个位置的点坐标绘制出的一条光滑曲线。
自适应贝塞尔曲线网络(ABCNet):使用自适应贝塞尔曲线进行的端到端可训练的场景文本定位框架。
最小二乘方法:一种曲线拟合的方法,求出这样一些未知参数使得样本点和拟合线的总误差(距离)最小。
OCR(Optical Character Recognition,光学字符识别):一种能够高速、准确地扫描文档的技术。
CTCloss(Connectionist Temporal Classification):一种联结时间的分类损失函数。
Centerloss:一种损失函数,作用是使类内间距越小越好。
Bezier Align:基于贝塞尔曲线的特征对齐的方法,类似于ROI。
transformer:一种高效的序列到序列的编码解码结构。
在本申请中,提供了一种文本识别模型训练方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行下述所示文本识别模型训练方法中的步骤。
场景文本检测与识别由于在计算机视觉中的广泛应用而受到越来越多的关注。现阶段文本检测与识别的方法,由于其在大小、长宽比、字体样式、透视失真和形状等方面的多样性,检测和识别变形文本在很大程度上并未得到有效地解决。虽然深度学习的出现极大地提高了场景文本定位任务的性能,但是目前的方法在实际应用中仍然存在相当大的差距,特别是在效率方面。
近年来,许多端到端方法显著提高了任意形状场景文本定位的性能。然而,这些方法要么使用基于分段的方法来维护复杂的计算,要么需要大量昂贵的字符级标注,因此,本申请实施例提供的文本识别模型训练方法是设计一个简单而有效的端到端框架(端到端框架可以理解为使用者直接输入初始数据到模型中,可直接得到可用的结果,而不用去关心中间的产物的结构框架),用于在图像中定向或弯曲的场景文本定位,确保能够提高推断时间,同时也提供了更好的性能。基于此,本申请提出了一种端到端的可训练框架,输入带有任意形状文本的待识别图像,即可自动输出待识别图像中的文本,而无需考虑中间的图像检测、文本识别的计算过程,实现端到端的处理,进而,利用自适应贝塞尔曲线网络(ABCNet),实现对具有任意文本形状的图像进行场景文本识别,需要说明的是,本申请所提出的端到端框架是指整张图片的文字定位以及文字识别过程可由一套训练参数确定的,即先将图片中的文字定位出来,再对定位出来的文字进行识别,原本为两个阶段由两套训练参数实现,现可融合为一个阶段由一套训练参数实现。
此外,目前文字识别的技术领域,采用OCR技术大多数是两阶段的形式,即先检测后识别,且在文本定位时,文本大多数是方正的直文本或者是基于分割方法的文本定位,往往对一些不常见的形近字识别的准确率较差,特别是对专业性强的形近字识别的技术领域。
基于此,本申请实施例提供的文本识别模型训练方法提出的是端到端的文本识别方法,基于贝塞尔曲线对标签点进行数据拟合,使边界分离更明显,可以识别任意形状的文本尤其是弯曲文本,在提高预测精度的同时计算效率并没有下降;进一步地,文本识别部分使用transformer层、ctcloss以及centerloss的形式提高了形近字的识别准确度。
需要说明的是,本申请提供的文本识别模型训练方法是应用于服务器中的文本识别模型,其中,文本识别模型中包括卷积层、自注意力机制编码层、全连接层,具体可参见图2,图2示出了本申请一实施例的文本识别模型训练方法中的文本识别模型结构示意图。
图2中,文本识别模型包括卷积层a、自注意力机制编码层b、全连接层c。
实际应用中,文本识别模型自下而上,依次通过卷积层a、自注意力机制编码层b、全连接层c进行算法计算,进而输出文本识别结果;卷积层a对目标图片进行卷积处理,获得该目标图片的卷积向量,再将该目标图片的卷积向量输入至自注意力机制编码层b进行编码,获得编码向量,最后再将该编码向量输入至全连接层c进行损失值的计算,进而获得该目标图片的文本识别结果。
图3示出了根据本申请一实施例的文本识别模型训练方法的流程图,具体包括以下步骤。
步骤302:确定样本训练集,其中,所述样本训练集包括目标样本图片以及所述目标样本图片对应的样本标签。
其中,目标样本图片可以理解为带有文字内容,且具有文字轮廓的样本图片。
其中,目标样本图片对应的样本标签可以理解为目标样本图片中能够表示文字轮廓的特征标签,比如,特征点的坐标。
实际应用中,服务器可通过图片检测模型确定样本训练集,具体的,所述确定样本训练集,包括:
通过图片检测模型确定样本训练集。
其中,图片检测模型可以为任意一种实现对图片中的文本模块识别的检测模型,本申请实施例提供的图片检测模型可通过预先训练获得,同时,本申请实施例以图片检测模型利用Resnet50+FPN以及贝塞尔曲线进行图像特征的提取为例进行详细说明,其中,Resnet50为Resnet(残差网络(Residual Network)的缩写)的一种特征提取网络类型,该系列网络广泛用于目标分类等领域、以及作为计算机视觉任务主干经典神经网络的一部分;FPN(Feature PyramidNetworks,特征图金字塔网络)可理解为一种特征融合的形式,构架了一个可以进行端到端训练的特征金字塔,该种架构可以灵活地应用在不同地任务中去,包括目标检测、实例分割等;Resnet50+FPN可以理解为本申请中的FPN是在Resnet50的网络结构上进行的,就是网络的后几层特征(高层特征)和前几层特征(浅层特征)相互融合。
具体的,样本训练集可以为根据图片检测模型从初始样本图片中进行图片检测处理,而获得样本训练集,目的是利用该样本训练集可以对文本识别模型进行训练,使得通过文本识别模型可以识别出样本训练集中的文本内容。
本申请实施例提供的文本识别模型训练方法,通过图片检测模型对任意带有文字的图片进行检测,以识别出带有文字区域的样本图片,作为样本训练集,以便于后续将样本训练集输入至文本识别模型,对文字进行精准识别。
为了获得目标样本图片训练集,利用图片检测模型对初始样本图片进行处理,并采用贝塞尔曲线拟合标签点,精准地确定文本检测框,进而获得待处理图片;具体的,所述样本图片检测模型的训练方法如下:
接收包括初始样本图片以及所述初始样本图片对应的标签的训练数据;
将所述初始样本图片输入至图像特征提取模块进行特征提取,获得候选样本图片;
将所述候选样本图片输入至曲线序列特征提取模块进行特征提取,获得所述候选样本图片的文本检测框,并基于所述文本检测框在所述初始样本图片中确定待处理样本图片,设置所述待处理样本图片对应的标签;
基于所述初始样本图片对应的标签以及所述待处理样本图片对应的标签计算损失值,并根据所述损失值调整所述图片检测模型的初始参数,直至达到训练停止条件。
其中,训练数据中包括初始样本图片以及初始样本图片对应的标签,且初始样本图片可以理解为带有文字内容,还可包括人物、风景等其他内容的图片;初始样本图片对应的标签可以理解为表示初始图片中文字、人物、风景特征的标签。
其中,图像特征提取模块可以理解为对初始样本图片进行特征提取的模块。
其中,曲线序列特征提取模块可以理解为基于文字区域的曲线序列进行特征提取的模块,比如,基于贝塞尔曲线的获取的文字轮廓所组成的形状区域。
其中,待处理图片可以理解为基于文字轮廓所组成的形状区域映射在初始样本图片中,所获得的图片。
具体的,样本图片检测模型可以通过大量的初始样本图片进行不断的迭代训练而获得,图片检测模型可以接收大量的初始样本图片,以及该初始样本图片对应的标签,将该初始样本图片输入至图像特征提取模块进行特征提取,比如,可以提取该初始样本图片的人物特征、风景特征或者是文字特征,在确定好该初始样本图片的各种类型的特征之后,为了实现对图片中文字的识别,基于从初始样本图片中提取的文字特征确定图片具有文字区域的区域图片,并将该区域图片作为候选样本图片。
进一步地,在将候选样本图片输入至曲线序列特征提取模块进行特征提取,可基于曲线序列特征确定候选样本图片中文本的文本检测框,其中,文本检测框可以为方直文本的轮廓框,也可以为曲线文本的轮廓框,并根据文本检测框在初始样本图片中确定出与该文本检测框的区域重叠的图片内容,作为待处理样本图片;需要说明的是,本申请利用曲线序列特征提取模块对候选样本图片进行特征提取之后,仅获得该候选样本图片对应的控制点(该控制点可以理解为候选样本图片中文字区域周边的特征点),进而,本申请实施例提供的文本检测框确定方法,采用了贝塞尔曲线的计算方式,即参数曲线c(t),定义如公式(1)所示:
Figure BDA0003534544380000071
其中,n为次数,bi为第i个控制点(i为自然数),t为一个0-1的参数即用来控制开始点到结束点的变量参数,Bi,n(t)表示Bernstein偏执多项式,如公式(2)所示:
Figure BDA0003534544380000072
其中,(i)是二项式系数,为了拟合任意形状的文本与贝赛尔曲线,可从现有的数据集全面观察任意形状的场景文本,采用一个三次贝塞尔曲线(即n为3),以拟合不同类型的任意形状的场景文本,即基于三次贝塞尔曲线,可将任意形状的场景文本简化为有八个控制点的边界回归,进而获得候选样本图片的文本检测框。
更进一步地,在获得文本检测框的同时,可基于该文本检测框的文本框特征在初始样本图片中映射出该文本检测框对应的文字区域图片,将该具有文字区域的图片作为待处理样本图片,比如,该文本检测框为四个文本框特征点组成,分别为A(0,0)、B(0,1)、C(1,0)以及D(1,1),那么,这四个文本框特征点在初始样本图片中映射出该四个文本框特征点,获得对应的文本区域图片,再将该文本区域图片确定为待处理样本图片;同时,也为该待处理样本图片设置对应的标签,根据初始样本图片对应的标签以及待处理样本图片对应的标签计算相应的损失值,并根据损失值对图片检测模型中的图像特征提取模块的初始参数信息进行调整,直至达到训练停止条件,以完成对图片检测模型中的图像特征提取模块准确地进行图片特征提取的训练;计算损失值的损失函数Loss在实际应用中可以为0-1损失函数、绝对值损失函数、平方差损失函数、交叉熵损失函数等,在本申请中,对损失函数的选择不做限定,以实际应用为准。在此,以平方差损失函数为例进行解释说明,参见下述公式3:
L(Y,f(X))=(Y-f(X))2 公式3
其中,L(Y,f(X))表示损失值Loss,Y表示初始样本图片对应的标签的区域特征值(训练时生成的定位之后初始样本图片的区域特征值)、f(X)表示待处理样本图片对应的标签的区域特征值(标签生成为贝塞尔曲线的特征区域特征值)。在计算Loss值之后,根据Loss值反向调整图片检测模型中的图像区域特征参数、图像特征提取参数等,并继续利用下一批次样本图片训练图片检测模型,直至损失值小于预设阈值和/或训练轮次达到预设的轮次。
本申请提供的一具体实施方式中,以通过损失值小于预设阈值来停止训练图片检测模型为例,预设阈值为0.4,则当计算得到的Loss值小于0.4时,则可确定该图片检测模型的训练过程已完成。
本申请提供的另一具体实施方式中,以预设的训练轮次来停止训练图片检测模型为例,预设的训练轮次为20轮,当样本图片的训练轮次达到20轮之后,则可确定该图片检测模型的训练已经完成。
本申请提供的又一具体实施方式中,设置损失值预设阈值和预设训练轮次两个训练停止条件,同时监控损失值和训练轮次,当损失值或训练轮次中任意一项满足预设训练停止条件时,则可确定该图片检测模型已经完成训练。
实际应用中,对初始样本图片的图像特征提取过程可以采用Resnet50+FPN,在输出的文本检测框中,结合初始样本图片的原图映射到该初始样本图片的坐标点中,将获得的多边形的标签框拟合成贝塞尔曲线形式,可采用最小二乘法获取三次贝塞尔曲线的文本检测框,需要说明的是,获得文本检测框的方式本说明书对此不做任何限定。
本申请实施例提供的文本识别模型训练方法,通过训练图片检测模型,以精准地获得带有文本内容样本图片,作为样本训练集,便于后续将该样本训练集输入至文本识别模型中,对文本内容的识别。
进一步地,所述将所述候选样本图片输入至曲线序列特征提取模块进行特征提取,获得所述候选图片的文本检测框,包括:
将所述候选图片输入至曲线序列特征提取模块,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
其中,预设提取方式可以理解为任意对曲线特征提取的方式,本申请实施例对此不做过多限定。
具体的,对于已经进行初步特征提取的候选图片,是可以区别开图片的人物特征部分,风景特征部分以及文字特征部分,将该候选图片输入至曲线序列特征提取模块中,可基于曲线序列特征提取条件对该候选图片的文本特征部分再次进行特征提取,其中,曲线序列特征提取条件可以采用贝塞尔曲线方程,在对候选图片的文本特征的图片部分,可利用贝塞尔曲线方程,按照最小二乘法的方式对该候选图片进行特征提取,获得候选图片的文本检测框。
需要说明的是,本申请实施例不限于利用贝塞尔曲线方程,按照最小二乘法的方式对候选图片中的文本特征部分进行特征提取,还可根据其他相应的方式对文本特征部分进行特征提取。
实际应用中,采用贝塞尔曲线的原因是,可以基于贝塞尔方程对弯曲文本进行识别,比如,针对弓形的文字,其弓形的上边线以及下边线所构成的文本框,即为弓形的文本检测框,上下边线可利用贝塞尔曲线进行计算确定,进一步地,在获取到弓形的文本检测框之后,可针对弓形文本检测框的坐标点,映射到初始样本图片对应的坐标点,以便于后续确定由多个坐标点构成的待处理图片。
本申请实施例提供的文本识别模型训练方法,通过曲线序列特征提取条件对候选样本图片再次进行特征提取,确定文本检测框对应的图片,以便于后续将获得的图片输入至文本识别模型中,可快速地对其中的文本内容进行识别,减少其他除了文本内容的背景图像的干扰,提高识别文本的准确性。
为了获得背景图像干扰性较小的待处理图片,利用抽样方法BezierAlign选择RoI(region of interest,感兴趣区域,可以理解为机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域)特征,有效地输出一个固定大小的特征图;具体的,所述基于所述文本检测框在所述初始图片中确定待处理样本图片,设置所述待处理样本图片对应的标签,包括:
确定所述文本检测框的检测框宽度、检测框高度以及目标检测点;
基于所述目标检测点与所述检测框宽度,确定目标检测点宽度比例,以及基于所述目标检测点与所述检测框高度,确定目标检测点高度比例;
基于所述目标检测点宽度比例在所述文本检测框中确定目标检测点参数位置,基于所述目标检测点参数位置与所述目标检测点高度比例确定待处理样本图片,并设置所述待处理样本图片对应的标签。
具体的,为了能够获得干扰性较小的文本图片,可利用BezierAlign(贝塞尔曲线的特征对齐方法),有效地输出一个固定大小的特征图,可通过确定文本检测框的检测框宽度、检测框高度,以及目标检测点,先计算目标检测点到检测框的距离与整个检测框宽度的比例,再计算目标检测点到检测框的距离与整个检测框高度的比例,进而确定了该目标检测点的目标检测点宽度比例以及目标检测点高度比例,基于该目标检测点,在文本检测框中确定对应的目标检测点参数位置,基于该目标检测点参数位置与目标检测点高度比例,进而确定待处理样本图片,并可通过二维插值(二维插值又称节点二维、插值函数二维,形如z=f(x,y))求解该处的特征值,设置待处理样本图片对应的标签;需要说明的是,本申请实施例在确定待处理样本图片时,由于本申请中图片的检测点为二维检测点,所以采用二维插值算法进行计算,因为二维插值数据的计算必须是矩形域,即已知数据点(x,y)组成规则的矩阵,或称之为栅格,可使用meshgid函数生成;但本申请实施例对确定待处理样本图片的计算方式并不限于二维插值算法,在此不做具体限定。
实际应用中,文本检测框中可平均分成多个网格,任意网格的每一列都与文本的贝塞尔曲线边界正交,其中,采样点(即目标检测点)的宽度和高度分别为等距间隔,并对坐标进行双线性插值,具体的操作过程有以下步骤:首先,对于文本检测框中的任一格点,先计算格点到文本检测框左侧的距离与整个文本检测框宽度的比例t,再计算其格点到文本检测框底部的距离与整个文本检测框高度的比例;其次,对于原文本检测框,可根据两条贝塞尔曲线方程确定出最终对应的文本检测点,进而对该文本检测点通过二维插值计算该点的特征值;需要说明的是,通过对每个格点的计算,最后可准确地确定出贴合文本的区域,且不会引入大量的无效背景信息的待处理图片,并对该待处理图片设置对应的标签。
本申请实施例提供的文本识别模型训练方法,通过对文本检测框中的格点进行计算,确定出贴合文本的区域,且不会引入大量的无效背景信息的待处理图片,不仅能够实现对待处理文本的快速地识别,还可通过筛选出无效背景信息,提高识别的准确性。
具体的,所述基于所述目标检测点宽度比例在所述文本检测框中确定目标检测点参数位置,包括:
基于所述目标检测点宽度比例确定所述文本检测框对应的目标参数,且基于所述目标参数在所述文本检测框中确定目标检测点参数位置。
其中,目标检测点参数位置可以理解为在文本检测框中的基于目标检测点宽度比例确定的位置。
实际应用中,为了获取到贴合文本区域的文本检测框,可基于目标检测点宽度比例可确定文本检测框对应的目标参数,进而可实现在文本检测框中上下边界对应的目标检测点的参数位置;在确定出目标检测点宽度比例以及目标检测点高度比例之后,可在文本检测框中找出上下边的贝塞尔曲线参数方程对应参数值t的位置,得到目标检测点参数位置。
本申请实施例提供的文本识别模型训练方法,通过目标检测点宽度比例可在文本检测框中确定目标参数,以确定在文本检测框中的上下边界线的目标检测点参数位置,以实现确定出更加贴合文本的区域,进而实现筛除无效的背景信息的图片内容。
进一步地,在确定文本检测框中上下边界线的参数位置之后,可确定出上下边界之间的距离,进而可确定待处理样本图片的特征值;具体的,所述基于所述目标检测点参数位置与所述目标检测点高度比例确定待处理样本图片,包括:
基于所述目标检测点高度比例对所述目标检测点参数位置确定的距离进行处理,并基于预设处理方式确定所述目标检测点的特征值;
基于所述目标检测点的特征值获得待处理样本图片。
具体的,在确定目标检测点高度比例的情况下,可确定文本检测框的上下边界的距离,对该距离进行分割处理,并通过二维插值的方式对该目标检测点的特征值进行计算。
实际应用中,基于目标检测点高度比例t确定出的目标检测点参数位置,即tp(上边界参数点)与bp(下边界参数点),进而按照t这个比例对从bp到tp的线段进行分割,可通过二维插值求解该处的特征值,最终获得待处理样本图片,即可以理解为目标样本图片。
本申请实施例提供的文本识别模型训练方法,通过对文本检测框中的上下边界的参数位置之间的距离确定,进而获得目标检测点的特征值,以获得待处理样本图片,便于后续将该待处理样本图片输入至文本识别模型中,对待处理样本图片的内容进行精准地识别。
步骤304:将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量。
具体的,将获得的目标样本图片作为文本识别模型的输入部分,输入至文本识别模型中的卷积层,进行卷积处理,获得该目标样本图片的卷积向量,以便于后续将该目标样本图片的卷积向量输入至自注意力机制编码层进行编码处理。
实际应用中,本说明书提供的文本识别模型训练方法可应用于6个卷积层进行卷积处理,但对具体的卷积层数,在此不做过多的限定,可根据实际应用情况对卷积层数进行设置。
步骤306:将所述目标样本图片的卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量。
具体的,将目标样本图片作为自注意力机制编码层的输入部分,输入至自注意力机制编码层进行编码处理,获得编码向量;需要说明的是,本申请实施例采取的自注意力机制编码层对卷积向量进行编码处理,以代替原双向的LSTM,进行编码处理,相比原双向的LSTM提取的特征更具有代表性和序列化性。
步骤308:将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述目标损失值调整所述文本识别模型的参数,直至达到训练停止条件。
具体的,将自注意力机制编码层输出的编码向量以及样本标签输入至全连接层之后,可计算相应的目标损失值,并根据该目标损失值调整对应的文本识别模型的参数,直至达到训练停止条件,即完成了对文本识别模型的训练。
进一步地,目标损失值的计算方式可基于两种损失值获得;具体的,所述将所述编码向量输入至所述全连接层计算目标损失值,包括:
将所述编码向量和所述样本标签输入至所述全连接层的第一子层计算文字排列损失值,将所述编码向量和所述样本标签输入至所述全连接层的第二子层计算文字精度损失值;
基于所述文字排列损失值以及所述文字精度损失值确定目标损失值。
具体的,为了提高对文本识别的精准度,可以从文字排列方式方面确定识别的文字的排列顺序,也可以从文字精准度的方面确定出识别的文字的准确度,或者是对形近字文本的识别,将根据自注意力机制编码层输出的编码向量输入至全连接层进行损失值计算。
具体的,参见图4,图4示出了本申请一实施例提供的文本识别模型训练方法中全连接层的结构示意图。
图4中的全连接层包括第一子层和第二子层,第一子层用于计算文字排列顺序损失值,即可以理解为利用文字排列顺序损失值对文字识别的部分进行字符串对齐处理,以保证输出的识别文字的字符串对齐;第二子层用于计算文字精准度损失值,即可以理解为利用文字精准度损失值对识别的文字中形近字的准确识别,以提高输出文字的精准度;进而,根据文字排列损失值以及文字精准损失值确定该文本识别模型最终的目标损失值。
实际应用中,全连接层中的第一子层可以为利用CTCLoss损失函数对字符串对齐进行处理,第二子层可以为利用Center loss损失函数对形近字识别的处理,以提高文本识别中对文字长度以及一些不常见的形近字识别准确度。
需要说明的是,CTCLoss的计算方式是采用对识别出的文字计算概率的算法,计算每一个文字位置在当前路径(路径可以理解为识别出的几个文字中可能会有多种文字排列顺序的方式,不同的预测排列顺序都可看作不同的路径,即每个路径中每个字所在文字顺序位置是不一样的)下的最优的概率值,其中,概率值的计算可采用对当前文字前面所有文字预测所在文字排列顺序的位置的准确率相乘,再加上当前文字后面所有文字预测所在文字排列顺序的位置的准确率相乘,再将前后两个乘积结果相加,就是当前文字在文字排列顺序中当前位置的最优概率值,进而,具有最优概率值的位置则为当前文字所输出的位置;此外,在文字识别过程中还可根据标签的数量确定文字的数量,即保证文字识别模型输出的文字个数与预先标注的标签数量相一致,比如,标注的标签中文字数量为10个字,在文字识别模型识别的过程中,仅预测了9个文字的具***置,那么可采取将临时字符穿插至预测的文字中,保证文字识别的字符串的个数与原标签的文字个数对齐。
Center loss的计算是在计算CTCLoss之后,对于已经对齐后的文字再进行形近字的识别与纠正处理,目的是缩小类内距离(针对文本中确定的形近字)。
本申请实施例提供的文本识别模型训练方法,通过在全连接层中加入对文字精准损失值的计算,可实现对形近字的识别,进而加强了形近字识别的准确率。
参见图5,图5示出了本申请实施例提供的文本识别模型训练方法的具体应用过程流程图。
需要说明的是,本实施例提供的文本识别模型输入的待处理图片是基于图片检测模型获得,其中,待处理图片可以为任意形状的文本图片,文本识别模型中对待处理图片先进行卷积处理,获得卷积向量,再将卷积向量输入至编码层进行编码处理,其中,所述编码层为两层融合自注意力机制的编码层,因此对卷积向量的处理,相比原来的双向LSTM提取的特征更具有代表性和序列化性,最后,将编码后的编码向量输入至全连接层进行处理,其中,全连接层使用CTCLoss+Centerloss作为文字识别的指标,进而对待处理图片中的文字进行识别,实现对文本识别模型的训练;需要说明的是,在全连接层增加了Centerloss损失函数对编码向量进行处理,可以加强了对待处理图片中形近字识别的准确率。
具体的,在图5的A部分,可以为图片检测模型,其中,所述图片检测模型中具有多个处理层,以实现对图片的识别,获得待处理图片,首先,在该图片检测模型中,输入大量的初始图片以及该初始图片对应的标签,并将该初始图片输入至该图片检测模型中的图像特征提取层进行特征提取处理,获得候选图片;然后,将获得的候选图片输入至贝塞尔曲线特征提取层进行特征提取,以获得该候选图片的文本检测框,基于该文本检测框在原初始图片中确定出待处理图片,其中,贝塞尔曲线拟合标签点成曲线形式,简明参数化标识,在提高精度的同时,效率也并没有下降。
需要说明的是,在对上述图片检测模型的训练过程中,在确定出待处理图片后,同时还需对该待处理图片设置相应的标签,并基于该待处理图片以及该待处理图片对应的标签计算损失值,根据计算后的损失值调整该图片检测模型的参数,以实现对该图片检测模型的训练,进而达到对初始图片精准地检测出带有文字特征的待处理图片,以实现对图片中定向或弯曲的场景文本定位,本申请实施例利用贝塞尔曲线网络,以适应于精准地对任意形状的场景文本识别。
此外,在图5的B部分,可以为文字识别模型,其中,所述文字识别模型中具有多个处理层,以实现对待处理图片中的文字进行识别,进而精准地识别出待处理图片中的文字部分;首先,图片检测模型可将输出的待处理图片,实时输入至文字识别模型中,所述文字识别模型将输入的待处理图片输入至6层卷积层进行卷积处理,获得所述待处理图片的卷积向量;然后将该卷积向量输入至自注意力机制编码层中进行编码处理,获得编码向量;最后将所述编码向量输入至全连接层计算目标损失值,并根据目标损失值调整文本识别模型的参数,以实现对该文本识别模型的训练。
需要说明的是,为了加强对文本识别的精准度,全连接层中采用两层的损失值计算,分别为CTCLoss损失函数以及Centerloss损失函数,利用CTCLoss损失函数调整该文本识别模型的参数,不仅可以加强后续利用该文本识别模型对待处理图片的文字排列的识别精准度,也可以利用Centerloss损失函数调整该文本识别模型的参数,提高后续利用该文本识别模型对形近字识别的准确率。
通过上述对文本识别模型的训练,利用训练后的文本识别模型,可解决图像中字体多样的文字、图像背景多样、图像模糊或者是图像分辨率较低以及图像的排版方式多样等,存在文本识别率低的问题,进而实现通过端到端方法提高任意形状场景文本定位的性能,也可提高对一些不常见的形近字识别的准确率。
综上,本申请实施例提供的文本识别模型训练方法,通过将样本训练集输入卷积层进行卷积处理,获得目标样本图片的卷积向量,并将卷积向量输入至自注意力机制编码层进行编码,获得编码向量,并通过全连接层计算目标损失值,以调整文本识别模型的参数,直至达到训练停止条件,该模型中利用自注意力机制编码层不仅使得该文本识别模型提出的特征更具有代表性和序列化性,且将提取的特征通过全连接层计算目标损失值,以调整该文本识别模型的参数,使得目标损失值减小,进而提高对文本识别的准确率。
图6示出了根据本申请一实施例的文本识别方法的流程图,具体包括以下步骤。
需要说明的是,本实施例是对上述实施例中的文本识别模型训练方法的应用,其中,图片检测模型以及文本识别模型均是基于上述文本识别模型训练方法训练获得的。
步骤602:接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片。
需要说明的是,所述图片检测模型为所述文本识别模型训练方法的图片检测模型,可包括图像特征提取层、曲线序列特征提取层。
实际应用中,图片检测模型中的图像特征提取层可应用于Resnet50+FPN,曲线系列特征提取层可应用于贝塞尔曲线进行图像特征的提取,可参见上述实施例中对图片检测模型中各个应用层的描述。
进一步地,所述将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片,包括:
将所述初始图片输入至所述图像特征提取层,获得候选图片;
将所述候选图片输入至所述曲线序列特征提取层进行特征提取,获得所述候选图片的文本检测框;
基于所述文本检测框以及所述初始图片对应的标签在所述初始图片中做映射处理,生成待处理图片,其中,所述初始图片对应的标签是基于所述初始图片预先设定的。
本说明书实施例提供的文本识别方法,可基于曲线序列特征提取条件按照预设提取方式,对候选图片进行特征提取;具体的,所述将所述候选图片输入至所述曲线序列特征提取层进行特征提取,获得所述候选图片的文本检测框,包括:
将所述候选图片输入至所述曲线序列特征提取层,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
需要说明的是,本说明书实施例可利用贝塞尔曲线实现对候选图片进行特征提取,具体的特征提取过程可参考上述实施例中确定候选样本图片的文本检测框的过程,在此不做具体赘述。
实际应用中,输入的初始图片可以为图像背景模糊、图像文字形状多样等特征的图片,将该初始图片以及该初始图片对应的标签输入至图片检测模型中,可获得待处理图片,需要说明的是,将初始图片输入至该图片检测模型中,对该初始图片先进行图像特征提取,再基于贝塞尔曲线对特征提取后的图片再进行文本检测框的特征提取,然后,可根据文本检测框的标签到初始图片中做映射,获得该文本检测框在初始图片中的相应图片部分,作为待处理图片,比如,该初始图片的文本检测框为弓形,则映射在初始图片中,可获得弓形的待处理图片,且待处理图片中带有文本内容。
步骤604:将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息。
需要说明的是,所述文本识别模型包括卷积层、自注意力机制编码层以及全连接层。
相应地,所述将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,包括:
将所述待处理图片输入至所述卷积层进行卷积处理,获得所述待处理图片的卷积向量;
将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
将所述编码向量输入所述全连接层,获得所述待处理图片的文本信息。
其中,所述文本识别模型上述实施例提供的文本识别模型训练方法获得。
具体的,将图片检测模型中输出的待处理图片输入至文本识别模型中,可获得待处理图片中的文本信息,实际应用中,可将该待处理图片输入6层卷积层进行卷积处理,具体的卷积过程本实施例在此不做过多赘述,获得该待处理图片的卷积向量,将该卷积向量输入至自注意力机制编码层进行编码,获得编码向量,需要说明的是,通过自注意力机制编码层提取出的特征更具有代表性和序列化性,然后通过全连接层对识别的文本内容进行调整,最后可输出该待处理图片的文本信息,沿用上例,输入的待处理图片为带有文本内容的弓形待处理图片,利用文本识别模型可输出待处理图片中的弓形文字,以实现对图片的文本识别。
需要说明的是,该文本识别模型中的全连接层,利用文字排列损失值以及文字精准损失值对识别出的文字进行调整,不仅可以提高对文字排列方式或者顺序等的识别准确度,也能加强了对文字的形近字识别的准确率。
综上,本申请实施例提供的文本识别方法,利用图片检测模型以及文本识别模型对带有文字的图片进行识别,既能够保证识别的效率,也提高了文本识别的精准度。
与上述方法实施例相对应,本申请还提供了文本识别模型训练装置实施例,图7示出了本申请一个实施例的文本识别模型训练装置的结构示意图。如图7所示,该装置700包括:
所述文本识别模型包括卷积层模块702、自注意力机制编码层模块704、全连接层模块706;
所述卷积层模块702,被配置为确定样本训练集,所述样本训练集包括目标样本图片、及其对应的样本标签,将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;
所述自注意力机制编码层模块704,被配置为将所述目标样本图片的卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
所述全连接层模块706,被配置为将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述损失值调整所述文本识别模型的参数,直至达到训练停止条件。
可选地,所述卷积层模块702,进一步被配置为:
确定模块,被配置为通过图片检测模型确定样本训练集。
可选地,所述确定模块,进一步被配置为:
接收包括初始样本图片以及所述初始样本图片对应的标签的训练数据;
将所述初始样本图片输入至图像特征提取模块进行特征提取,获得候选样本图片;
将所述候选样本图片输入至曲线序列特征提取模块进行特征提取,获得所述候选图片的文本检测框,并基于所述文本检测框在所述初始图片中确定待处理样本图片,设置所述待处理样本图片对应的标签;
基于所述初始样本图片对应的标签以及所述待处理样本图片对应的标签计算损失值,并根据所述损失值调整所述图片检测模型的参数,直至达到训练停止条件。
可选地,所述全连接层模块706,进一步被配置为:
将所述编码向量输入至所述全连接层的第一子层计算文字排列损失值,将所述编码向量输入至所述全连接层的第二子层计算文字精度损失值;
基于所述文字排列损失值以及所述文字精度损失值确定目标损失值。
可选地,所述确定模块,进一步被配置为:
将所述候选图片输入至曲线序列特征提取模块,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
可选地,所述确定模块,进一步被配置为:
确定所述文本检测框的检测框宽度、检测框高度以及目标检测点;
基于所述目标检测点与所述检测框宽度,确定目标检测点宽度比例,以及基于所述目标检测点与所述检测框高度,确定目标检测点高度比例;
基于所述目标检测点宽度比例在所述文本检测框中确定目标检测点参数位置,基于所述目标检测点参数位置与所述目标检测点高度比例确定待处理样本图片,并设置所述待处理样本图片对应的标签。
可选地,所述确定模块,进一步被配置为:
基于所述目标检测点宽度比例确定所述文本检测框对应的目标参数,且基于所述目标参数在所述文本检测框中确定目标检测点参数位置。
可选地,所述确定模块,进一步被配置为:
基于所述目标检测点高度比例对所述目标检测点参数位置确定的距离进行处理,并基于预设处理方式确定所述待处理样本图片的特征值;
基于所述待处理样本图片的特征值待处理样本图片。
上述为本实施例的一种文本识别模型训练装置的示意性方案。需要说明的是,该文本识别模型训练装置的技术方案与上述的文本识别模型训练方法的技术方案属于同一构思,文本识别模型训练装置的技术方案未详细描述的细节内容,均可以参见上述文本识别模型训练方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
与上述方法实施例相对应,本申请还提供了文本识别装置实施例,图8示出了本申请一个实施例的文本识别装置的结构示意图。如图8所示,该装置800包括:
检测模块802,被配置为接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片;
识别模块804,被配置为将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,其中,所述文本识别模型采用上述文本识别模型训练方法获得,所述图片检测模型为所述文本识别模型训练方法的图片检测模型。
可选地,所述图片检测模型包括图像特征提取层、曲线序列特征提取层。
可选地,所述检测模块802,进一步被配置为:
将所述初始图片输入至所述图像特征提取层,获得候选图片;
将所述候选图片输入至所述曲线序列特征提取层进行特征提取,获得所述候选图片的文本检测框;
基于所述文本检测框以及所述初始图片对应的标签在所述初始图片中做映射处理,生成待处理图片,其中,所述初始图片对应的标签是基于所述初始图片预先设定的。
可选地,所述检测模块802,进一步被配置为:
将所述候选图片输入至所述曲线序列特征提取层,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
可选地,所述文本识别模型包括卷积层、自注意力机制编码层以及全连接层。
可选地,所述识别模块804,进一步被配置为:
将所述待处理图片输入至所述卷积层进行卷积处理,获得所述待处理图片的卷积向量;
将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
将所述编码向量输入所述全连接层,获得所述待处理图片的文本信息。
上述为本实施例的一种文本识别装置的示意性方案。需要说明的是,该文本识别装置的技术方案与上述的文本识别方法的技术方案属于同一构思,文本识别装置的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的文本识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本识别方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述文本识别模型训练方法或文本识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (16)

1.一种文本识别模型训练方法,其特征在于,所述文本识别模型包括卷积层、自注意力机制编码层、全连接层;
确定样本训练集,所述样本训练集包括目标样本图片、及其对应的样本标签;
将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;
将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述目标损失值调整所述文本识别模型的参数,直至达到训练停止条件。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述确定样本训练集,包括:
通过图片检测模型确定样本训练集。
3.根据权利要求2所述的文本识别模型训练方法,其特征在于,所述图片检测模型的训练方法如下:
接收包括初始样本图片以及所述初始样本图片对应的标签的训练数据;
将所述初始样本图片输入至图像特征提取模块进行特征提取,获得候选样本图片;
将所述候选样本图片输入至曲线序列特征提取模块进行特征提取,获得所述候选样本图片的文本检测框,并基于所述文本检测框在所述初始样本图片中确定待处理样本图片,设置所述待处理样本图片对应的标签;
基于所述初始样本图片对应的标签以及所述待处理样本图片对应的标签计算损失值,并根据所述损失值调整所述图片检测模型的参数,直至达到训练停止条件。
4.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述将所述编码向量输入至所述全连接层计算目标损失值,包括:
将所述编码向量和所述样本标签输入至所述全连接层的第一子层计算文字排列损失值,将所述编码向量和所述样本标签输入至所述全连接层的第二子层计算文字精度损失值;
基于所述文字排列损失值以及所述文字精度损失值确定目标损失值。
5.根据权利要求3所述的文本识别模型训练方法,所述将所述候选图片输入至曲线序列特征提取模块进行特征提取,获得所述候选图片的文本检测框,包括:
将所述候选图片输入至曲线序列特征提取模块,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
6.根据权利要求5所述的文本识别模型训练方法,其特征在于,所述基于所述文本检测框在所述初始图片中确定待处理样本图片,设置所述待处理样本图片对应的标签,包括:
确定所述文本检测框的检测框宽度、检测框高度以及目标检测点;
基于所述目标检测点与所述检测框宽度,确定目标检测点宽度比例,以及基于所述目标检测点与所述检测框高度,确定目标检测点高度比例;
基于所述目标检测点宽度比例在所述文本检测框中确定目标检测点参数位置,基于所述目标检测点参数位置与所述目标检测点高度比例确定待处理样本图片,并设置所述待处理样本图片对应的标签。
7.根据权利要求6所述的文本识别模型训练方法,其特征在于,所述基于所述目标检测点宽度比例在所述文本检测框中确定目标检测点参数位置,包括:
基于所述目标检测点宽度比例确定所述文本检测框对应的目标参数,且基于所述目标参数在所述文本检测框中确定目标检测点参数位置。
8.根据权利要求7所述的文本识别模型训练方法,其特征在于,所述基于所述目标检测点参数位置与所述目标检测点高度比例确定待处理样本图片,包括:
基于所述目标检测点高度比例对所述目标检测点参数位置确定的距离进行处理,并基于预设处理方式确定所述目标检测点的特征值;
基于所述目标检测点的特征值获得待处理样本图片。
9.一种文本识别方法,其特征在于,包括:
接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片;
将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,其中,所述文本识别模型采用权利要求1-8的文本识别模型训练方法获得,所述图片检测模型为所述文本识别模型训练方法的图片检测模型。
10.根据权利要求9所述的文本识别方法,其特征在于,所述图片检测模型包括图像特征提取层、曲线序列特征提取层;
相应地,所述将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片,包括:
将所述初始图片输入至所述图像特征提取层,获得候选图片;
将所述候选图片输入至所述曲线序列特征提取层进行特征提取,获得所述候选图片的文本检测框;
基于所述文本检测框以及所述初始图片对应的标签在所述初始图片中做映射处理,生成待处理图片,其中,所述初始图片对应的标签是基于所述初始图片预先设定的。
11.根据权利要求10所述的文本识别方法,其特征在于,所述将所述候选图片输入至所述曲线序列特征提取层进行特征提取,获得所述候选图片的文本检测框,包括:
将所述候选图片输入至所述曲线序列特征提取层,基于曲线序列特征提取条件按照预设提取方式进行特征提取,获得所述候选图片的文本检测框。
12.根据权利要求9所述的文本识别方法,其特征在于,所述文本识别模型包括卷积层、自注意力机制编码层以及全连接层;
相应地,所述将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,包括:
将所述待处理图片输入至所述卷积层进行卷积处理,获得所述待处理图片的卷积向量;
将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
将所述编码向量输入所述全连接层,获得所述待处理图片的文本信息。
13.一种文本识别模型训练装置,其特征在于,所述文本识别模型包括卷积层模块、自注意力机制编码层模块、全连接层模块;
所述卷积层模块,被配置为确定样本训练集,所述样本训练集包括目标样本图片、及其对应的样本标签,将所述目标样本图片输入至所述卷积层中进行卷积处理,获得所述目标样本图片的卷积向量;
所述自注意力机制编码层模块,被配置为将所述卷积向量输入至所述自注意力机制编码层中进行编码处理,获得编码向量;
所述全连接层模块,被配置为将所述编码向量和所述样本标签输入至所述全连接层计算目标损失值,且根据所述损失值调整所述文本识别模型的参数,直至达到训练停止条件。
14.一种文本识别装置,其特征在于,包括:
检测模块,被配置为接收初始图片以及所述初始图片对应的标签,将所述初始图片以及所述初始图片对应的标签输入至图片检测模型中,获得待处理图片;
识别模块,被配置为将所述待处理图片输入至文本识别模型中,获得所述待处理图片的文本信息,其中,所述文本识别模型采用权利要求1-8的文本识别模型训练方法获得,所述图片检测模型为所述文本识别模型训练方法的图片检测模型。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8或者9-12任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8或者9-12任意一项所述方法的步骤。
CN202210223227.7A 2021-07-08 2022-03-07 一种文本识别模型训练方法及装置 Pending CN114581918A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110775009 2021-07-08
CN202110775009X 2021-07-08

Publications (1)

Publication Number Publication Date
CN114581918A true CN114581918A (zh) 2022-06-03

Family

ID=81778264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210223227.7A Pending CN114581918A (zh) 2021-07-08 2022-03-07 一种文本识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN114581918A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545009A (zh) * 2022-12-01 2022-12-30 中科雨辰科技有限公司 一种获取目标文本的数据处理***
CN116343233A (zh) * 2023-04-04 2023-06-27 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545009A (zh) * 2022-12-01 2022-12-30 中科雨辰科技有限公司 一种获取目标文本的数据处理***
CN116343233A (zh) * 2023-04-04 2023-06-27 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置
CN116343233B (zh) * 2023-04-04 2024-02-06 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置

Similar Documents

Publication Publication Date Title
US11908244B2 (en) Human posture detection utilizing posture reference maps
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
Ding et al. Fish recognition using convolutional neural network
CN111696110B (zh) 场景分割方法及***
CN112966691A (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及***
CN114581918A (zh) 一种文本识别模型训练方法及装置
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN113205449A (zh) 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN113065550A (zh) 基于自注意力机制的文本识别方法
CN115830652B (zh) 一种深度掌纹识别装置及方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN115050045A (zh) 一种基于Vision MLP的行人重识别方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
Oliveira et al. A novel Genetic Algorithms and SURF-Based approach for image retargeting
Zhang et al. A simple and effective static gesture recognition method based on attention mechanism
Luo et al. Piecewise linear regression-based single image super-resolution via Hadamard transform
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及***
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111209886A (zh) 一种基于深度神经网络的快速行人再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination