CN114648754A - 基于图像的文字识别方法、装置、设备、介质及产品 - Google Patents

基于图像的文字识别方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN114648754A
CN114648754A CN202210336292.0A CN202210336292A CN114648754A CN 114648754 A CN114648754 A CN 114648754A CN 202210336292 A CN202210336292 A CN 202210336292A CN 114648754 A CN114648754 A CN 114648754A
Authority
CN
China
Prior art keywords
image
features
character
pixel points
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210336292.0A
Other languages
English (en)
Inventor
黄聚
张晓强
钦夏孟
姚锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210336292.0A priority Critical patent/CN114648754A/zh
Publication of CN114648754A publication Critical patent/CN114648754A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提供了一种基于图像的文字识别方法、装置、设备、介质及产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可以应用于OCR((Optical Character Recognition,光学字符识别))等场景。具体实现方案为:确定待识别图像的图像特征;基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。本公开的技术方案提高了图像的文字识别精度。

Description

基于图像的文字识别方法、装置、设备、介质及产品
技术领域
本公开涉及人工智能领域中的深度学习、图像处理、计算机视觉技术领域,可应用于OCR((Optical Character Recognition,光学字符识别))等场景,尤其涉及一种基于图像的文字识别方法、装置、设备、介质及产品。
背景技术
在自然语言识别技术中,通常是对图像中的文字所在区域进行识别,以对区域对应的局部图像进行文字识别。但是这种识别方式中,文字的识别需要依赖于区域识别的结果。而对区域识别结果的过分依赖,区域识别结果存在误差时,导致局部图像的定位误差。特别是在图像为自然场景下拍摄的内容比较复杂的图像而言,局部图像的定位误差会导致文字识别准确率不高。
发明内容
本公开提供了一种用于提高文字识别精度的基于图像的文字识别方法、装置、设备、介质及产品。
根据本公开的第一方面,提供了一种基于图像的文字识别方法,包括:
确定待识别图像的图像特征;
基于图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;
利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;
对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。
根据本公开的第二方面,提供了一种基于图像的文字识别装置,包括:
特征确定单元,用于确定待识别图像的图像特征;
特征处理单元,用于基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;
实例计算单元,用于利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;
实例识别单元,用于对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本公开的技术解决了现有的自然场景下拍摄的图像并不能进行准确的识别,识别精度并不高的问题,利用图像的特征进行像素的含义进行识别,并同时利用对文字训练获得的文字特征在图像中进行定位,进而利用定位结果和像素含义对图像中可能包含的文字进行定位并获取。通过嵌入特征和位置映射可以对文字实例特征准确获取,利用获得的文字实例特征可以对待识别图像进行准确的文字识别,提高文字识别精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种基于图像的文字识别方法的一个应用场景示意图;
图2是根据本公开实施例提供的一种基于图像的文字识别方法的一个实施例的流程图;
图3是根据本公开实施例提供的一种基于图像的文字识别方法的又一个实施例的流程图;
图4是根据本公开实施例提供的一种基于图像的文字识别方法的又一个实施例的流程图;
图5是根据本公开实施例提供的一种基于图像的文字识别方法的又一个实施例的流程图;
图6是根据本公开实施例提供的一种基于图像的文字识别方法的又一个实施例的流程图;
图7是根据本公开实施例提供的一种基于图像的文字识别装置的一个实施例的结构示意图;
图8是用来实现本公开实施例的基于图像的文字识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开的技术方案可以应用于文字识别场景中,通过对图像中的嵌入特征和位置映射结果同时获取,可以实现对图像的文字实例特征的准确提取,获得准确的识别结果。
相比于传统的文档或者文本图像的文字识别技术,自然场景下采集的图像的文字识别更具有挑战性。相关技术中,自然场景下采集的图像,可以首先使用区域检测网络定位图像中存在文字的区域,然后通过ROI操作获取该文本区域的局部特征。最后将局部特征输入到识别网络,获得文本识别结果。在实际应用中,为了确保识别准确性,通常可以将识别的字符进行连接以“单词”或者“词语”的形式输出文本。但是,这种识别方式中,对文本的识别需要依赖于文字所在区域的检测结果,若检测区域存在误差时,会导致识别精度的下降,导致文字识别不准确。同时,在训练过程中,二者是分开训练的,识别分支的结果无法对检测分支产生影响,导致二者并不能进行联合优化,因此,出于以上问题,现有的自然场景下拍摄的图像并不能进行准确的识别,识别精度并不高。
为了解决上述技术问题,本公开实施例中,考虑在对图像进行初步的特征提取之后,可以利用图像的特征进行像素的含义进行识别,并同时利用对文字训练获得的文字特征在图像中进行定位,进而利用定位结果和像素含义对图像中可能包含的文字进行定位并获取。这一过程中,可以不需要对图像中文字所在的局部区域进行检测,图像信息的识别和文字特征的定位可以获得准确的识别结果,提高文字识别精度。
据此,本公开实施例提供一种基于图像的文字识别方法、装置、设备、存储介质及产品,可以应用于人工智能领域中的深度学习、图像处理、计算机视觉技术领域,可应用于OCR((Optical Character Recognition,光学字符识别))等场景,以达到提高自然场景下采集的图像的文字识别精度的目的。
下面将结合附图对本公开的技术方案进行详细介绍。
如图1所示,为本公开实施例提供的一种基于图像的文字识别方法的一个应用场景示意图,该基于图像的文字识别方法对应的网络架构中可以包括:通过有线或者无线方式建立通信连接的电子设备1和服务器2。电子设备1可以用于采集待识别图像,并将待识别图像传输至服务器2。如图1所示,服务器2可以首先确定待识别图像的图像特征,然后通过嵌入支线提取待识别图像的嵌入特征101。然后通过位置映射支线提取待识别图像的位置映射结果102。然后利用嵌入特征和位置映射结果进行特征计算,获得文字实例特征103。通过对文字实例特征进行文字识别,可以获得待识别图像的目标识别信息104。通过嵌入特征和位置映射结果的获取,可以对待识别图像中的像素内容和文字位置进行准确获取,提高图像文字识别的准确率。
如图2所示,为本公开实施例提供的一种基于图像的文字识别方法的一个实施例的流程图,该基于图像的文字识别方法可以配置为一基于图像的文字识别装置,该装置可以位于电子设备中。其中,基于图像的文字识别方法可以包括以下几个步骤:
201:确定待识别图像的图像特征。
其中,待识别图像可以包括在自然场景下拍摄的自然图像。自然图像中可以包括标识牌、建筑物标识等包含文字的信息,标识牌例如可以包括道路标识牌、地名标识牌、商家标识牌等。在实际应用中,对自然图像的文字识别可以应用于电子地图导航、电子地图定位后的内容推荐等场景中。
在本公开的技术方案应用于OCR场景时,待识别图像可以包括针对文档、文件、表格等文字文件拍摄的文字图像。
可以通过特征提取算法提取待识别图像的图像特征。
202:基于图像特征,同时提取待识别图像的嵌入特征和待识别图像对应的位置映射结果。
同时提取到识别图像的嵌入特征和待识别图像对应的位置映射结果可以使得嵌入特征和位置映射结果同时执行,二者执行过程中互不干扰,确保嵌入特征和位置映射结果的独立执行,提高嵌入特征和位置映射结果的准确度。
203:利用嵌入特征和位置映射结果进行特征计算,获得待识别图像的文字实例特征。
本实施例中,获得图像特征之后,采用步骤202和步骤203分别对图像特征进行嵌入特征和位置映射结果的获取,这两个步骤是并行执行的,并不存在执行上的先后顺序,两个步骤的执行不互相干扰。但是两个步骤的结果,也即嵌入特征和位置映射结果需要在204中进行特征计算,对图像内容和位置进行综合性的识别,使得两个步骤产生一定执行关联,因此,本公开的技术方案,嵌套特征的提取和位置映射结果的获取并行执行并存在特征关联,可以利用获得的文字实例特征进行准确的文字识别。
204:对文字实例特征进行文字识别,获得待识别图像的目标识别信息。
在一种可能的设计中,待识别图像可以由用户设备发送至电子设备。电子设备对待识别图像进行文字识别之后,可以将识别获得的目标识别信息发送至用户设备。
本公开实施例中,获得待识别图像之后,可以确定待识别图像的图像特征。同时对图像特征进行嵌入特征和位置映射结果的获取,使得嵌入特征和位置映射结果相互不受影响,实现二者的准确提取。通过利用嵌入特征和位置映射结果进行特征计算,可以获得待识别图像的文字实例特征。实现对待识别图像中具体文字实例的有效提取。以利用文字实例特征进行文字识别,获得目标识别信息。通过嵌入特征和位置映射可以对文字实例特征准确获取,利用获得的文字实例特征可以对待识别图像进行准确的文字识别,提高文字识别精度。
为使读者更深刻地理解本公开的实现原理,现结合以下图3-图6对图2所示的实施例进行进一步细化。
如图3所示,为本公开实施例提供的一种基于图像的文字识别方法的一个实施例的流程图,该基于图像的文字识别方法可以配置为一基于图像的文字识别装置,该装置可以位于电子设备中。其中,基于图像的文字识别方法可以包括以下几个步骤:
301:确定待识别图像的图像特征。
需要说明的是本实施例部分步骤与前述图2所示实施例部分步骤相同,为了描述的简洁性,在此不再赘述。
302:对图像特征进行像素特征的提取,获得待识别图像对应的嵌入特征。
图像特征可以以三维矩阵的数据结构。图像特征中每个像素点坐标可以作为三维矩阵中的两个维度,除像素点坐标之外的维度可以代表像素点特征值。对图像特征进行像素特征的提取,获得待识别图像对应的嵌入特征,可以包括:对图像特征按照像素点进行像素特征的提取,获得待识别图像对应的嵌入特征。嵌入特征可以包括待识别图像中每个像素点的像素子特征。
303:基于预设文字特征对图像特征进行位置映射,获得文字特征在待识别图像对应的位置映射结果。
可以在对图像特征进行像素特征的提取的同时,基于预设文字特征对该图像特征同时进行位置映射,获得文字特征在待识别图像对应的位置映射结果。
文字特征可以通过文字查询内容(Queries)进行特征提取获得。文字特征可以包括多个。
该方法还可以包括:获取预设多个文字查询内容,对文字查询内容进行特征提取,获得多个文字查询内容分别对应的文字特征。文字查询内容的类型可以包括:字符、单词、短句、词语中的一种或多种。
对文字查询内容进行特征提取可以包括采用词向量(embedding)算法对文字查询内容进行特征提取,获得文字查询内容的文字特征。文字特征可以包括文字词向量。
304:利用嵌入特征和位置映射结果进行特征计算,获得待识别图像的文字实例特征。
305:对文字实例特征进行文字识别,获得待识别图像的目标识别信息。
本公开实施例中,获得待识别图像之后,可以确定待识别图像的图像特征。对图像特征进行像素特征的提取,可以获得待识别图像的嵌入特征。嵌入特征可以对待识别图像的像素所对应的特征进行标识。基于预设文字特征可以对图像特征进行位置映射,可以获得文字特征在待识别图像对应的位置映射结果。通过利用嵌入特征和位置映射结果进行特征计算,可以获得待识别图像的文字实例特征。实现对待识别图像中具体文字实例的有效提取。以利用文字实例特征进行文字识别,获得目标识别信息。通过嵌入特征和位置映射可以对文字实例特征准确获取,利用获得的文字实例特征可以对待识别图像进行准确的文字识别,提高文字识别精度。
作为一个实施例,为了获得准确的文字实例特征,上述步骤:利用嵌入特征和位置映射结果进行特征计算,获得待识别图像的文字实例特征,具体可以包括:
将嵌入特征和位置映射结果进行内积计算,获得待识别图像的文字实例特征。
可选地,可以采用内积计算公式对嵌入特征和位置映射结果进行内积计算,获得待识别图像的文字实例特征。通过内积计算可以对嵌入特征和位置映射结果两个内容进行融合,获得的文字实例特征综合了文字位置和内容两个方面的特征,用于对待识别图像的文字识别时,准确度更高。
本公开实施例中,采用内积计算方式,可以对嵌入特征和位置映射结果进行特征关联的计算,获得的准确的文字实例特征。
其中,可以对图像采用查询解码器进行图像内容的识别和像素解码器进行图像像素特征的识别。查询界面器是基于查询问题生成的,可以训练获得,具体可以用于对各个文字对应的特征在图像位置和内容进行查询。而像素解码器可以对单个像素进行具体的分析。从而利用查询解码器和像素解码器实现对图像的文字查询内容和位置的准确分析,获得的文字实例特征可以用于准确识别待识别图像的目标识别信息。
在一种可能的设计中,确定待识别图像的图像特征,包括:
将待识别图像输入到骨干网络模型,通过骨干网络模型计算获得待识别图像的图像特征。
骨干网络模型(Backbone)可以是基于卷积神经网络(Convolutional NeuralNetworks,CNN)或者转换网络(Transformer Networks)的网络结构,也可以基于两者混合的网络结构。骨干网络模型可以对待识别图像中的高分辨率特征进行准确提取。
本公开实施例中,采用骨干网络模型对待识别图像的图像特征进行准确提取,提高图像特征的特征表达能力和位置标记精度。
如图4所示,在上述步骤302中,对图像特征进行像素特征的提取,获得待识别图像对应的嵌入特征,可以包括一下几个步骤:
401:利用像素解码器对图像特征的像素点进行像素特征的提取,获得待识别图像中多个像素点分别对应的像素子特征。
可以将图像特征输入像素解码器,利用像素解码器对图像特征的像素点进行像素特征的提取,获得待识别图像中多个像素点分别对应的像素子特征。
可选地,像素解码器(Pixel decoder)可以对像素点的像素特征进行提取。
402:根据多个像素点分别对应的像素位置,将多个像素点分别对应的像素子特征组合,获得待识别图像对应的嵌入特征。
其中,像素点的像素位置可以为像素点在待识别图像中的像素坐标。嵌入特征可以为三维矩阵。根据多个像素点分别对应的像素位置,将多个像素点分别对应的像素子特征组合,获得待识别图像对应的嵌入特征可以包括:将像素点分别对应的像素子特征按照对应的像素位置存储,获得待识别图像的嵌入特征。
本公开实施例中,将图像特征输入到像素解码器,可以利用像素界面器对图像特征的像素点进行像素特征的提取。通过像素点的像素特征的提取,可以对图像特征中各个像素点的特征分别进行特征计算,以获得准确的特征计算结果。通过使用像素解码器可以对每个像素进行详细的分析,获得的嵌入特征中包含了像素的个体特性,获得准确的识别结果。
作为一个实施例,像素解码器包括卷积尺寸对应的卷积核。利用像素解码器对图像特征的像素点进行像素特征的提取,包括:
确定像素解码器中卷积尺寸对应的卷积核;
将图像特征中像素点的点特征与卷积核进行卷积计算,获得卷积尺寸对应的卷积特征;
将卷积特征进行特征融合,获得像素点对应的像素子特征。
卷积尺寸可以包括至少一个,至少一个卷积尺寸可以分别对应有卷积核。卷积尺寸包括至少一个时,可以确定像素解码器中至少一个卷积尺寸分别对应的卷积核。将图像特征中像素点的点特征与卷积核进行卷积计算,获得至少一个卷积尺寸分别对应的卷积特征。将至少一个卷积特征进行特征融合,获得像素点对应的像素子特征。
将至少一个卷积特征进行特征融合可以包括:将至少一个卷积特征转换为一维的至少一个卷积向量,将至少一个卷积向量进行拼接,获得像素点的像素子特征。将至少一个卷积向量进行拼接时,可以按照至少一个卷积特征分别对应卷积核的尺寸大小确定拼接顺序,按照至少一个卷积向量的拼接顺序进行拼接。卷积核尺寸可以按照从大到小或者从小到大的顺序排序。
本公开实施例中,利用像素解码器进行像素特征的提取时,可以利用像素解码器中的卷积尺寸对应的卷积核与任一个像素点的点特征进行卷积计算,获得像素点在卷积尺寸对应的卷积特征,将卷积特征进行特征融合即可以获得像素点对应的像素子特征。通过卷积尺寸可以对像素点在不同层级的特征进行有效提取,同时,通过将卷积尺寸提取的卷积特征进行融合可以使得像素子特征中综合不同尺寸的卷积特征,获得的像素子特征信息更全面,准确度更高。
作为一个实施例,基于预设文字特征对图像特征进行位置映射,获得文字特征在待识别图像对应的位置映射结果,可以包括:
利用查询解码器对文字特征在图像特征中的位置进行映射,获得文字特征在待识别图像对应的位置映射结果。
其中,可以将图像特征输入文字特征对应的查询解码器,利用查询解码器对文字特征在图像特征中的位置进行映射,获得文字特征在待识别图像对应的位置映射结果。
查询解码器可以对文字特征在图像特征中的位置进行映射。
本公开实施例中,利用查询解码器对文字特征在图像特征中的位置进行映射,可以获得文字特征在待识别图像对应的位置映射结果。位置映射结果包含了文字特征与待识别图像之间的位置关联,用于文字识别时,可以对文字特征对应的文字查询内容进行准确定位,提高文字识别准确度和精度。
在实际应用中,为了获得准确的位置映射结果,可以设置查询解码器包括转换编码器和多层感知器。如图5所示,上述步骤中:利用查询解码器对文字特征在图像特征中的位置进行映射,可以包括以下几个步骤:
501:利用转换编码器对文字特征在图像特征的像素点的信息匹配度进行关联程度计算,获得文字特征在多个像素点分别对应的信息子特征。
文字特征和图像特征均可以作为转换编码器(Transformer decoder)的输入,转换编码器可以对文字特征在图像特征的位置进行定位,获得文字特征在多个像素点对应的信息子特征。信息子特征可以为文字特征与像素点的关联程度。在一种可能的设计中,信息子特征的数值越大,像素点存在文字特征的可能性越高。
502:基于多层感知器模型对文字特征在多个像素点分别对应的信息子特征进行感知识别,获得文字特征在多个像素点分别对应的掩码子特征。
文字特征在多个像素点分别对应的信息子特征可以作为多层感知器(MultilayerPerceptron,MLP)进行感知识别,也即对多个像素点中包含的文字内容和位置进行感知,获得掩码子特征。在实际应用中,多层感知器例如可以包括简单的2层全连接层。
503:根据文字特征在多个像素点分别对应的掩码子特征,确定文字特征在待识别图像对应的位置映射结果。
在实际应用中,文字特征可以包括多个,文字特征在多个像素点分别对应的信息子特征可以以多维矩阵形式表示,信息负责度较高,采用多层感知器可以对多维度的文字特征在多个像素点分别对应的信息子特征进行感知识别,获得的多个像素点分别对应的掩码子特征可以进行降维,各级文字特征在多个像素点分别对应的掩码子特征确定的位置映射结果的维度降低,可以提高候选的识别效率。
本公开实施例中,首先可以利用转换编码器对文字特征在图像特征的像素点的信息匹配度进行关联程度计算,可以获得文字特征在多个像素点分别对应的信息子特征,以实现对像素点的信息匹配度计算。通过多层感知器可以对信息子特征进行感知识别,获得文字特征在多个像素点分别对应的掩码子特征。掩码子特征可以表征文字特征在图像中的位置,实现对图像中存在的文字的准确定位,获得的位置映射结果可以对文字位置进行准确定位,提高文字识别准确率。
为了获得准确的目标文字信息,可以对文字特征进行具体识别时,可以利用待识别图像的掩码子特征对图像中的文字进行准确定位。在一种可能的设计中,文字特征可以包括多个;位置映射结果包括文字特征在待识别图像的多个像素点分别对应的掩码子特征。目标识别信息可以包括待识别图像的目标文字信息。
如图6所示,上述实施例中,对文字实例特征进行文字识别,获得待识别图像的目标识别信息,具体可以包括以下几个步骤:
601:根据文字特征在待识别图像的多个像素点分别对应的掩码子特征,对像素点的信息含量进行计算,获得多个像素点分别对应的信息含量。
602:根据多个像素点分别对应的信息含量,从多个像素点中确定目标像素点在待识别图像中的位置索引值。
603:根据位置索引值,从文字实例特征中获取目标像素点对应的局部特征。
目标像素点在待识别图像中的位置索引值可以包括目标像素点在待识别图像中的坐标。根据位置索引值从文字实例特征中获取目标像素点对应的局部特征可以包括:根据位置索引值从文字实例特征中查询文字索引值对应坐标的子特征,根据位置索引值对应的子特征,获得局部特征。
根据位置索引值从文字实例特征中获取目标像素点对应的局部特征可以包括根据位置索引值确定左上角坐标以及右下角坐标,根据左上角坐标和右下角坐标对应的矩形区域,从文字实例特征中获取位于该矩形区域中的子特征,以确定位于该矩形区域中的子特征为局部特征。
604:对局部特征进行内容识别,获得待识别图像的目标文字信息。
本公开实施例中,对文字实例进行文字识别过程中,可以根据文字特征在待识别图像的多个像素点分别对应的掩码子特征,对像素点的信息含量进行计算,以获得多个像素点分别对应的信息含量。通过像素点信息含量的计算,可以对像素点的信息进行准确而有效的分析。根据多个像素点分别对应的信息含量,可以从多个像素点中确定目标像素点在待识别图像中的位置索引,获得含义含量最高的若干目标像素点,以利用目标像素点对应的局部特征进行内容识别,获得待识别图像的目标文字信息。利用像素点的信息含量可以对参与识别的目标像素点进行准确选择,提高目标像素点的选择准确性,获得准确的识别结果。
作为一个实施例,文字特征可以包括多个。根据文字特征在待识别图像的多个像素点分别对应的掩码子特征,对像素点的信息含量进行计算,包括:
根据多个文字特征各自在多个像素点分别对应的掩码子特征,确定像素点在多个文字特征分别对应的掩码子特征。
根据像素点在多个文字特征分别对应的掩码子特征进行特征值加权计算,获得像素点的信息含量。
文字特征对应的掩码子特征可以指对文字特征在图像中的位置进行mask(掩码)获得的特征。可以根据掩码子特征定位文字特征对应文字在图像中的位置。
根据像素点在多个文字特征分别对应的掩码子特征进行特征值加权计算,获得像素点的信息含量可以包括:将像素点在多个文字特征分别对应的掩码子特征转化为掩码值,获得像素点对应的多个掩码值,将多个掩码值相加获得像素点的信息含量。为了便于理解,例如,掩码子特征为[h,w]维,多个文字特征的数量为C,也即像素点在多个文字特征分别对应的掩码子特征可以表示为:[h,w,C]维的特征,可以将掩码子特征进行掩码值计算,通常可以将掩码子特征按照特征值公式进行计算,特征值公式可以表示为h*w,获得[h*w,C]的二维特征,再对该二维特征在文字特征这个维度上进行均值计算,获得[(均值)h*w,1]为像素点的信息含量。从信息含量中选择信息含量最高的前N个像素点,进行内容识别。
本公开实施例中,根据多个文字特征各自在多个像素点分别对应的掩码子特征,确定像素点在多个文字特征分别对应的掩码子特征。每个像素点的掩码子特征可以对文字的位置进行标注,以根据像素点在多个文字特征分别对应的掩码子特征进行特征值加权计算,获得像素点的信息含量。信息含量即可以为对像素点综合对应的文字可能性的标注,获得的信息含量对像素点的在多个文字特征的映射下,对像素点的位置进行准确定义,提高像素点的位置获取效率。
在一种可能的设计中,根据多个像素点分别对应的信息含量,从多个像素点中确定目标像素点在待识别图像中的位置索引值,包括:
将多个像素点按照信息含量从大到小的顺序进行排序,获得多个像素点分别对应的像素顺序。
根据多个像素点分别对应的像素顺序,从多个像素点中选择前N个像素点为目标像素点;N为预设的大于等于1的整数。
确定目标像素点在待识别图像中的坐标为位置索引值。
多个像素点按照从大到小的顺序进行排序之外,还可以采用将多个像素点按照从小到大的顺序排序,获得多个像素点分别对应的像素顺序,以从多个像素点中选择后N个像素点为目标像素点。
目标像素点在待识别图像中的坐标可以读取获得。
本公开实施例中,将多个像素点按照信息含量从大到小的顺序进行排序,可以获得多个像素点分别对应的像素顺序。多个像素点分别对应的像素顺序可以用于从多个像素点中选择前N个像素点为目标像素点,以确定目标像素点在待识别图像中的坐标为位置索引值。通过选择目标像素点和确定目标像素点的位置索引值,可以对参与到最终识别步骤的像素点进行准确选择,以利用准确的目标像素点达到提高目标识别精度的目标。
此外,除对图像文字进行识别之外,还可以对图像中文字所在的掩码区域和文字特征对应的文字的标记结果进行识别。
在一种可能的设计中,目标识别信息包括文字所在的掩码区域图像;对文字实例特征进行文字识别,获得待识别图像的目标识别信息,包括:
基于掩码区域分割模型,对文字实例特征进行文字区域的掩码识别,获得待识别图像中存在文字的掩码区域图像。
掩码区域分割模型(Mask head)可以用于对文字特征的掩码区域图像进行获取。通过位置识别结果可以对文字特征进行掩码标记,获得文字特征的标记结果。
本公开实施例中,可以基于掩码区域分割模型对文字实例特征进行文字区域的掩码识别,获得待识别图像中存在文字的掩码区域图像,实现对待识别图像的图像识别,实现图像的掩码区域图像的准确识别,获得准确的区域识别效果和准确性。
在又一种可能的设计中,目标识别信息包括文字的内容识别信息;对文字实例特征进行文字识别,获得待识别图像的目标识别信息,包括:
基于多个文字特征对应的实例分类模型,对文字实例特征进行文字特征的匹配,获得待识别图像在多个文字特征中对应的目标特征;多个文字特征分别对应有文字查询内容;
根据目标特征对应的文字查询内容,确定待识别图像的内容识别信息。
实例分类模型(class head)可以用于对文字特征进行分类。内容识别信息问对多个文字特征分别对应的分类结果。分类结果可以包括在待识别图像中存在文字特征对应的文字查询内容,可以使用Y或1标识。分类识别结果还可以包括在待识别图像中不存在文字特征对应的文字查询内容,可以使用N或0标识。文字特征包括多个,获得的内容识别信息可以包括多个文字特征分别对应的分类结果,具体可以包括分类结果向量。例如使用YN标识时,内容识别信息可以表示为“NYNN”的分类结果向量。
本公开实施例中,基于多个文字特征对应的实例分类模型,对文字实例特征进行文字特征的匹配,可以获得待识别图像在多个文字特征中对应的目标特征。多个文字特征分别对应有文字查询内容。根据目标特征对应的文字查询内容确定待识别图像的内容识别信息。通过内容识别信息的获取可以对文字特征对应的文字查询内容与待识别图像相关联,提高待识别图像的识别准确度。
如图7所示,为本公开实施例提供的一种基于图像的文字识别装置的一个实施例的结构示意图,该基于图像的文字识别装置可以配置有一基于图像的文字识别方法,该装置可以位于电子设备中。其中,基于图像的文字识别装置700可以包括以下几个单元:
特征确定单元701:用于确定待识别图像的图像特征。
特征处理单元702:用于基于图像特征,同时提取待识别图像的嵌入特征和待识别图像对应的位置映射结果。
实例计算单元703:用于利用嵌入特征和位置映射结果进行特征计算,获得待识别图像的文字实例特征。
实例识别单元704:用于对文字实例特征进行文字识别,获得待识别图像的目标识别信息。
在某些实施例中,特征处理单元701可以包括:
嵌入提取模块,用于对图像特征进行像素特征的提取,获得待识别图像对应的嵌入特征;
位置映射模块,用于基于预设文字特征对图像特征进行位置映射,获得文字特征在待识别图像对应的位置映射结果。
作为一个实施例,嵌入提取模块,包括:
第一输入子模块,用于利用像素解码器对图像特征的像素点进行像素特征的提取,获得待识别图像中多个像素点分别对应的像素子特征;
像素组合子模块,用于根据多个像素点分别对应的像素位置,将多个像素点分别对应的像素子特征组合,获得待识别图像对应的嵌入特征。
在某些实施例中,像素解码器包括卷积尺寸对应的卷积核;
第一输入子模块,具体用于:
确定像素解码器中卷积尺寸对应的卷积核;
将图像特征中像素点的点特征与卷积核进行卷积计算,获得卷积尺寸对应的卷积特征;
将卷积特征进行特征融合,获得像素点对应的像素子特征。
作为又一个实施例,位置映射模块,包括:
第二输入子模块,用于利用查询解码器对文字特征在图像特征中的位置进行映射,获得文字特征在待识别图像对应的位置映射结果。
在某些实施例中,查询解码器包括转换编码器和多层感知器;
第二输入子模块,具体可以用于:
利用转换编码器对文字特征在图像特征的像素点的信息匹配度进行关联程度计算,获得文字特征在多个像素点分别对应的信息子特征;
基于多层感知器模型对文字特征在多个像素点分别对应的信息子特征进行感知识别,获得文字特征在多个像素点分别对应的掩码子特征;
根据文字特征在多个像素点分别对应的掩码子特征,确定文字特征在待识别图像对应的位置映射结果。
作为一种可能的实现方式,文字特征包括多个;位置映射结果包括文字特征在待识别图像的多个像素点分别对应的掩码子特征;目标识别信息包括待识别图像的目标文字信息;
实例识别单元,包括:
含量计算模块,用于根据文字特征在待识别图像的多个像素点分别对应的掩码子特征,对像素点的信息含量进行计算,获得多个像素点分别对应的信息含量;
目标定位模块,用于根据多个像素点分别对应的信息含量,从多个像素点中确定目标像素点在待识别图像中的位置索引值;
局部提取模块,用于根据位置索引值,从文字实例特征中获取目标像素点对应的局部特征;
文字识别模块,用于对局部特征进行内容识别,获得待识别图像的目标文字信息。
在某些实施例中,文字特征包括多个,含量计算模块,包括:
掩码计算子模块,用于根据多个文字特征各自在多个像素点分别对应的掩码子特征,确定像素点在多个文字特征分别对应的掩码子特征;
第二计算子模块,用于根据像素点在多个文字特征分别对应的掩码子特征进行特征值加权计算,获得像素点的信息含量。
作为一种可能的实现方式,目标定位模块,包括:
像素排序子模块,用于将多个像素点按照信息含量从大到小的顺序进行排序,获得多个像素点分别对应的像素顺序;
像素选择子模块,用于根据多个像素点分别对应的像素顺序,从多个像素点中选择前N个像素点为目标像素点;N为预设的大于等于1的整数;
索引确定子模块,用于确定目标像素点在待识别图像中的坐标为位置索引值。
在某些实施例中,实例计算单元,包括:
内积计算模块,用于将嵌入特征和位置映射结果进行内积计算,获得待识别图像的文字实例特征。
作为一个实施例,目标识别信息包括文字所在的掩码区域图像;实例识别单元,包括:
掩码识别模块,用于基于掩码区域分割模型,对文字实例特征进行文字区域的掩码识别,获得待识别图像中存在文字的掩码区域图像。
在某些实施例中,目标识别信息包括文字的内容识别信息;实例识别单元,包括:
文字确定模块,用于基于多个文字特征对应的实例分类模型,对文字实例特征进行文字特征的匹配,获得待识别图像在多个文字特征中对应的目标特征;多个文字特征分别对应有文字查询内容;
内容识别模块,用于根据目标特征对应的文字查询内容,确定待识别图像的内容识别信息。
作为一个实施例,特征确定单元,包括:
特征提取模块,用于将待识别图像输入到骨干网络模型,通过骨干网络模型计算获得待识别图像的图像特征。
本公开实施例的装置可以具体执行上述基于图像的文字识别方法的技术方案,关于装置中各个单元、模块、子模块所执行的具体步骤和技术效果可以参考方法的相关描述,在此不再赘述。
需要说明的是,本实施例中的待识别图像并不是针对某一特定用户的图像,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的图像来自于公开数据集。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如基于图像的文字识别方法。例如,在一些实施例中,基于图像的文字识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的基于图像的文字识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于图像的文字识别方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (29)

1.一种基于图像的文字识别方法,包括:
确定待识别图像的图像特征;
基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;
利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;
对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。
2.根据权利要求1所述的方法,其中,所述基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果,包括:
对所述图像特征进行像素特征的提取,获得所述待识别图像对应的嵌入特征;
基于预设文字特征对所述图像特征进行位置映射,获得所述文字特征在所述待识别图像对应的位置映射结果。
3.根据权利要求2所述的方法,其中,所述对所述图像特征进行像素特征的提取,获得所述待识别图像对应的嵌入特征,包括:
利用像素解码器对所述图像特征的像素点进行像素特征的提取,获得所述待识别图像中多个像素点分别对应的像素子特征;
根据多个像素点分别对应的像素位置,将多个所述像素点分别对应的像素子特征组合,获得所述待识别图像对应的嵌入特征。
4.根据权利要求3所述的方法,其中,所述像素解码器包括卷积尺寸对应的卷积核;
所述利用像素解码器对所述图像特征的像素点进行像素特征的提取,包括:
确定所述像素解码器中卷积尺寸对应的卷积核;
将所述图像特征中所述像素点的点特征与所述卷积核进行卷积计算,获得卷积尺寸对应的卷积特征;
将所述卷积特征进行特征融合,获得所述像素点对应的像素子特征。
5.根据权利要求2-4任一项所述的方法,其中,所述基于预设文字特征对所述图像特征进行位置映射,获得所述文字特征在所述待识别图像对应的位置映射结果,包括:
利用查询解码器对所述文字特征在所述图像特征中的位置进行映射,获得所述文字特征在所述待识别图像对应的位置映射结果。
6.根据权利要求5所述的方法,其中,所述查询解码器包括转换编码器和多层感知器;
所述利用查询解码器对所述文字特征在所述图像特征中的位置进行映射,获得所述文字特征在所述待识别图像对应的位置映射结果,包括:
利用所述转换编码器对所述文字特征在所述图像特征的像素点的信息匹配度进行关联程度计算,获得所述文字特征在所述多个像素点分别对应的信息子特征;
基于多层感知器模型对所述文字特征在多个像素点分别对应的信息子特征进行感知识别,获得所述文字特征在多个所述像素点分别对应的掩码子特征;
根据所述文字特征在多个所述像素点分别对应的掩码子特征,确定所述文字特征在所述待识别图像对应的位置映射结果。
7.根据权利要求6所述的方法,其中,所述文字特征包括多个;所述位置映射结果包括所述文字特征在所述待识别图像的多个所述像素点分别对应的掩码子特征;所述目标识别信息包括待识别图像的目标文字信息;
所述对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息,包括:
根据所述文字特征在所述待识别图像的多个像素点分别对应的掩码子特征,对所述像素点的信息含量进行计算,获得多个所述像素点分别对应的信息含量;
根据多个所述像素点分别对应的信息含量,从多个所述像素点中确定目标像素点在所述待识别图像中的位置索引值;
根据所述位置索引值,从所述文字实例特征中获取所述目标像素点对应的局部特征;
对所述局部特征进行内容识别,获得所述待识别图像的目标文字信息。
8.根据权利要求7所述的方法,其中,所述文字特征包括多个,所述根据所述文字特征在所述待识别图像的多个像素点分别对应的掩码子特征,对所述像素点的信息含量进行计算,包括:
根据多个所述文字特征各自在多个像素点分别对应的掩码子特征,确定所述像素点在多个所述文字特征分别对应的掩码子特征;
根据所述像素点在多个所述文字特征分别对应的掩码子特征进行特征值加权计算,获得所述像素点的信息含量。
9.根据权利要求7或8所述的方法,其中,所述根据多个所述像素点分别对应的信息含量,从多个所述像素点中确定目标像素点在所述待识别图像中的位置索引值,包括:
将多个所述像素点按照信息含量从大到小的顺序进行排序,获得多个所述像素点分别对应的像素顺序;
根据多个所述像素点分别对应的像素顺序,从多个所述像素点中选择前N个像素点为所述目标像素点;N为预设的大于等于1的整数;
确定所述目标像素点在所述待识别图像中的坐标为所述位置索引值。
10.根据权利要求1-9任一项所述的方法,其中,所述利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征,包括:
将所述嵌入特征和所述位置映射结果进行内积计算,获得所述待识别图像的文字实例特征。
11.根据权利要求1-10任一项所述的方法,其中,所述目标识别信息包括文字所在的掩码区域图像;所述对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息,包括:
基于掩码区域分割模型,对所述文字实例特征进行文字区域的掩码识别,获得所述待识别图像中存在文字的掩码区域图像。
12.根据权利要求1-11任一项所述的方法,其中,所述目标识别信息包括文字的内容识别信息;所述对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息,包括:
基于多个所述文字特征对应的实例分类模型,对所述文字实例特征进行文字特征的匹配,获得所述待识别图像在多个所述文字特征中对应的目标特征;所述多个文字特征分别对应有文字查询内容;
根据所述目标特征对应的文字查询内容,确定所述待识别图像的内容识别信息。
13.根据权利要求1-12任一项所述的方法,其中,所述确定待识别图像的图像特征,包括:
将所述待识别图像输入到骨干网络模型,通过所述骨干网络模型计算获得所述待识别图像的图像特征。
14.一种基于图像的文字识别装置,包括:
特征确定单元,用于确定待识别图像的图像特征;
特征处理单元,用于基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;
实例计算单元,用于利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;
实例识别单元,用于对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。
15.根据权利要求14所述的装置,其中,所述特征处理单元,包括:
嵌入提取模块,用于对所述图像特征进行像素特征的提取,获得所述待识别图像对应的嵌入特征;
位置映射模块,用于基于预设文字特征对所述图像特征进行位置映射,获得所述文字特征在所述待识别图像对应的位置映射结果。
16.根据权利要求15所述的装置,其中,所述嵌入提取模块,包括:
第一输入子模块,用于利用像素解码器对所述图像特征的像素点进行像素特征的提取,获得所述待识别图像中多个像素点分别对应的像素子特征;
像素组合子模块,用于根据多个像素点分别对应的像素位置,将多个所述像素点分别对应的像素子特征组合,获得所述待识别图像对应的嵌入特征。
17.根据权利要求16所述的装置,其中,所述像素解码器包括卷积尺寸对应的卷积核;
所述第一输入子模块,具体用于:
确定所述像素解码器中卷积尺寸对应的卷积核;
将所述图像特征中所述像素点的点特征与所述卷积核进行卷积计算,获得卷积尺寸对应的卷积特征;
将所述卷积特征进行特征融合,获得所述像素点对应的像素子特征。
18.根据权利要求15-17任一项所述的装置,其中,所述位置映射模块,包括:
第二输入子模块,用于利用查询解码器对所述文字特征在所述图像特征中的位置进行映射,获得所述文字特征在所述待识别图像对应的位置映射结果。
19.根据权利要求18所述的装置,其中,所述查询解码器包括转换编码器和多层感知器;
所述第二输入子模块,具体用于:
利用所述转换编码器对所述文字特征在所述图像特征的像素点的信息匹配度进行关联程度计算,获得所述文字特征在所述多个像素点分别对应的信息子特征;
基于多层感知器模型对所述文字特征在多个像素点分别对应的信息子特征进行感知识别,获得所述文字特征在多个所述像素点分别对应的掩码子特征;
根据所述文字特征在多个所述像素点分别对应的掩码子特征,确定所述文字特征在所述待识别图像对应的位置映射结果。
20.根据权利要求19所述的装置,其中,所述文字特征包括多个;所述位置映射结果包括所述文字特征在所述待识别图像的多个所述像素点分别对应的掩码子特征;所述目标识别信息包括待识别图像的目标文字信息;
所述实例识别单元,包括:
含量计算模块,用于根据所述文字特征在所述待识别图像的多个像素点分别对应的掩码子特征,对所述像素点的信息含量进行计算,获得多个所述像素点分别对应的信息含量;
目标定位模块,用于根据多个所述像素点分别对应的信息含量,从多个所述像素点中确定目标像素点在所述待识别图像中的位置索引值;
局部提取模块,用于根据所述位置索引值,从所述文字实例特征中获取所述目标像素点对应的局部特征;
文字识别模块,用于对所述局部特征进行内容识别,获得所述待识别图像的目标文字信息。
21.根据权利要求20所述的方法,其中,所述文字特征包括多个,所述含量计算模块,包括:
掩码计算子模块,用于根据多个所述文字特征各自在多个像素点分别对应的掩码子特征,确定所述像素点在多个所述文字特征分别对应的掩码子特征;
第二计算子模块,用于根据所述像素点在多个所述文字特征分别对应的掩码子特征进行特征值加权计算,获得所述像素点的信息含量。
22.根据权利要求20或21所述的装置,其中,所述目标定位模块,包括:
像素排序子模块,用于将多个所述像素点按照信息含量从大到小的顺序进行排序,获得多个所述像素点分别对应的像素顺序;
像素选择子模块,用于根据多个所述像素点分别对应的像素顺序,从多个所述像素点中选择前N个像素点为所述目标像素点;N为预设的大于等于1的整数;
索引确定子模块,用于确定所述目标像素点在所述待识别图像中的坐标为所述位置索引值。
23.根据权利要求14-22任一项所述的装置,其中,所述实例计算单元,包括:
内积计算模块,用于将所述嵌入特征和所述位置映射结果进行内积计算,获得所述待识别图像的文字实例特征。
24.根据权利要求14-23任一项所述的装置,其中,所述目标识别信息包括文字所在的掩码区域图像;所述实例识别单元,包括:
掩码识别模块,用于基于掩码区域分割模型,对所述文字实例特征进行文字区域的掩码识别,获得所述待识别图像中存在文字的掩码区域图像。
25.根据权利要求14-24任一项所述的装置,其中,所述目标识别信息包括文字的内容识别信息;所述实例识别单元,包括:
文字确定模块,用于基于多个所述文字特征对应的实例分类模型,对所述文字实例特征进行文字特征的匹配,获得所述待识别图像在多个所述文字特征中对应的目标特征;所述多个文字特征分别对应有文字查询内容;
内容识别模块,用于根据所述目标特征对应的文字查询内容,确定所述待识别图像的内容识别信息。
26.根据权利要求14-25任一项所述的装置,其中,所述特征确定单元,包括:
特征提取模块,用于将所述待识别图像输入到骨干网络模型,通过所述骨干网络模型计算获得所述待识别图像的图像特征。
27.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。
29.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-13中任一项所述方法的步骤。
CN202210336292.0A 2022-03-31 2022-03-31 基于图像的文字识别方法、装置、设备、介质及产品 Pending CN114648754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210336292.0A CN114648754A (zh) 2022-03-31 2022-03-31 基于图像的文字识别方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336292.0A CN114648754A (zh) 2022-03-31 2022-03-31 基于图像的文字识别方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN114648754A true CN114648754A (zh) 2022-06-21

Family

ID=81996268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336292.0A Pending CN114648754A (zh) 2022-03-31 2022-03-31 基于图像的文字识别方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN114648754A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310306A1 (en) * 2014-04-24 2015-10-29 Nantworks, LLC Robust feature identification for image-based object recognition
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111753836A (zh) * 2019-08-27 2020-10-09 北京京东尚科信息技术有限公司 文字识别方法、装置、计算机可读介质及电子设备
US20210142093A1 (en) * 2019-11-08 2021-05-13 Tricentis Gmbh Method and system for single pass optical character recognition
CN113657364A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 用于识别文字标志的方法、装置、设备以及存储介质
CN114155543A (zh) * 2021-12-08 2022-03-08 北京百度网讯科技有限公司 神经网络训练方法、文档图像理解方法、装置和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310306A1 (en) * 2014-04-24 2015-10-29 Nantworks, LLC Robust feature identification for image-based object recognition
CN111753836A (zh) * 2019-08-27 2020-10-09 北京京东尚科信息技术有限公司 文字识别方法、装置、计算机可读介质及电子设备
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
US20210142093A1 (en) * 2019-11-08 2021-05-13 Tricentis Gmbh Method and system for single pass optical character recognition
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN113657364A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 用于识别文字标志的方法、装置、设备以及存储介质
CN114155543A (zh) * 2021-12-08 2022-03-08 北京百度网讯科技有限公司 神经网络训练方法、文档图像理解方法、装置和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOWEN CHENG ET AL.: "Per-Pixel Classification is Not All You Need for Semantic Segmentation", 《ARXIV》, 31 October 2021 (2021-10-31), pages 1 - 17 *
YUXIN WANG ET AL.: "From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network", 《ARXIV》, 22 August 2021 (2021-08-22), pages 1 - 10 *

Similar Documents

Publication Publication Date Title
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
CN112949415B (zh) 图像处理方法、装置、设备和介质
US20220270382A1 (en) Method and apparatus of training image recognition model, method and apparatus of recognizing image, and electronic device
CN110569846A (zh) 图像文字识别方法、装置、设备及存储介质
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113032672A (zh) 多模态poi特征的提取方法和装置
CN113313022A (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN114022900A (zh) 检测模型的训练方法、检测方法、装置、设备和介质
US11281928B1 (en) Querying semantic data from unstructured documents
CN113205041A (zh) 结构化信息提取方法、装置、设备和存储介质
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN114821255A (zh) 多模态特征的融合方法、装置、设备、介质和产品
CN114418124A (zh) 生成图神经网络模型的方法、装置、设备及存储介质
CN113191261B (zh) 图像类别的识别方法、装置和电子设备
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN112580620A (zh) 标志图片处理方法、装置、设备和介质
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN115035351A (zh) 基于图像的信息提取模型、方法、装置、设备及存储介质
CN114648754A (zh) 基于图像的文字识别方法、装置、设备、介质及产品
CN114863450A (zh) 图像处理方法、装置、电子设备及存储介质
CN114661904A (zh) 文档处理模型的训练方法、装置、设备、存储介质及程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination